jiebaR中文分词,并做词云(R语言)

  使用结巴中文分词(jiebaR)对爬取的新浪新闻 文本进行分词,统计词频之后,使用包wordcloud画词云。

1、读入数据


  以下数据是在这里爬取的,这里只对社会新闻类进行测试,文件还是比较大的。分词完有一千多万个词,处理完后有将近30万。


1
2
3
4
5
library(jiebaR)
library(wordcloud)

#读入数据分隔符是‘\n’,字符编码是‘UTF-8’,what=''表示以字符串类型读入
f <- scan('D:/数据/News/shxw.txt',sep='\n',what='',encoding="UTF-8")

2、数据处理


1
2
3
4
5
6
7
8
9
10
seg <- qseg[f] #使用qseg类型分词,并把结果保存到对象seg中
seg <- seg[nchar(seg)>1] #去除字符长度小于2的词语

seg <- table(seg) #统计词频

seg <- seg[!grepl('[0-9]+',names(seg))] #去除数字
length(seg) #查看处理完后剩余的词数
# [1] 288955
seg <- sort(seg, decreasing = TRUE)[1:100] #降序排序,并提取出现次数最多的前100个词语
seg #查看100个词频最高的

3、做词云


1
2
3
4
bmp("comment_cloud.bmp", width = 500, height = 500) #设置画布
par(bg = "black") #背景色
wordcloud(names(seg), seg, colors = rainbow(100), random.order=F)
dev.off()

文章目录
  1. 1. 1、读入数据
  2. 2. 2、数据处理
  3. 3. 3、做词云
,