中文词频统计及词云制作

mac2022-06-30  83

1.中软国际华南区技术总监曾老师还会来上两次课,同学们希望曾老师讲些什么内容?(认真想一想回答)

   答:结合python与html的交互知识,用python爬动态网页;用python结合mysql做数据存储。

2.中文分词

下载一中文长篇小说,并转换成UTF-8编码。使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。**排除一些无意义词、合并同一词。**使用wordcloud库绘制一个词云。 import jieba txt=open('2.txt','r',encoding='utf-8').read() words=jieba.lcut(txt) counts={} for word in words: if len(word)==1: continue else: counts[word]=counts.get(word,0)+1 items=list(counts.items()) items.sort(key=lambda x:x[1],reverse=True) for i in range(20): word,count=items[i] print("{0:<10}{1:>5}".format(word,count))

转载于:https://www.cnblogs.com/huanglinxin/p/7591187.html

相关资源:JAVA上百实例源码以及开源项目
最新回复(0)