使用结巴中文分词(jiebaR)对爬取的新浪新闻 文本进行分词,统计词频之后,使用包wordcloud画词云。
1、读入数据
以下数据是在这里爬取的,这里只对社会新闻类进行测试,文件还是比较大的。分词完有一千多万个词,处理完后有将近30万。
1
2
3
4
5library(jiebaR)
library(wordcloud)
#读入数据分隔符是‘\n’,字符编码是‘UTF-8’,what=''表示以字符串类型读入
f <- scan('D:/数据/News/shxw.txt',sep='\n',what='',encoding="UTF-8")
2、数据处理
1 | seg <- qseg[f] #使用qseg类型分词,并把结果保存到对象seg中 |
3、做词云
1 | bmp("comment_cloud.bmp", width = 500, height = 500) #设置画布 |