jieba是中文自然语言处理中使用最多的工具包之一,以分词为首,实现了分词、词性标记、命名实体识别等多种功能。 既然Jieba是以分词开始的,我们就必须先学习Jieba的中文分词功能。 Jieba有三种分词模式。
精确模式:在这种模式下,Jieba将语句最精确地划分为所有模式。 扫描句子中的所有单词。 该模式非常快,缺点明显,是一种不能有效解决歧义的问题搜索引擎模式。 根据精确模式,重新分割长单词。 该模式适用于搜索引擎构建索引的分词importjieba
seg_list=jieba.cut (我来到北京清华大学(cut_all=True ) )。
print ('全模式:''/'.join ) seg_list ) #全模式
seg_list=jieba.cut (我来到了北京清华大学(cut_all=False ) )。
print ('严格模式:''/'.join ) seg_list ) #严格模式
seg_list=jieba.cut (我来到北京清华大学) #默认为精密模式
打印(','.join(seg_list ) )
str='我是中国人"
word1=Jieba.cut_for_search(str ) #搜索引擎模式
财富1:强
是打印(item )
OUT:
全模式:我/来/北京/清华/清华大学/华大/大学
精确模式:我/来/北京/清华大学
我,来到了北京,清华大学
我
是
个
中国
有些人可能需要添加自定义词典来添加自定义词典,因为词典中没有这个词
#mydict.txt内容
# #干清宫1n#语分为一个词类
# #黄琉璃瓦1n
Jie ba.load _ user dict ('./data/mydict.txt ' )需要UTF-8,可以在另存中设置
jieba.add_word (也可以使用“干清宫”
text='故宫有名的景点有干清宫、太和殿、黄琉璃瓦等'
# #全模式
seg _ list=Jie ba.cut (文本,cut _ all=真) ) ) ) ) ) ) )。
print(u ) ]: (,(/).join ) seg_list ) )
# #精密模式
seg _ list=Jie ba.cut (文本,文本全部=假) ) ) ) ) ) ) ) ) )。
print(u ) ]: (,(/).join ) seg_list ) )
OUT:
[全模式]:故宫/的/知名/知名景点/景点/包括/干清宫/清宫///太和/太和殿/和/黄璃瓦/琉璃/琉璃瓦/琉璃瓦/
[精确模式]:故宫/的/有名的景点/包含/干清宫/,/太和殿/和/黄琉瓦/等关键词提取
importjieba.analyse
用于名为analyse的包
seg _ list=Jie ba.cut (文本,文本全部=假) ) ) ) ) ) ) ) ) )。
print(u )分词结果: ) ) ) )。
打印((/) .连接) seg _列表) )
text='故宫有名的景点有干清宫、太和殿、黄琉璃瓦等'
# #获取关键字
tags=Jie ba.analyse.extract _ tags (文本,主题=5) #前五个
打印(u )关键字: ) ) )。
打印(' .连接)标签) )
出局:
分词结果:
故宫/的/有名的观光地/包/干清宫/,/太和殿/和/黄琉瓦/等
关键字:
着名景点干清宫黄琉璃瓦太和殿故宫印刷关键词
tags=Jie ba.analyse.extract _ tags (文本,主题=5,with weight=真) #显示比重
向前,权重标签:
打印(word,权重) )。
OUT:
有名的观光地2.3167796086666668
干宫1.9924612504833332
黄琉璃瓦1.9924612504833332
太和殿1.6938346722833335
故宫1.5411195503033335词类标签
importjieba.possegaspseg
words=pseg.cut (我爱北京天安门) )
向前,flaginwords:
打印(' % s % s % )世界,标志)
OUTL
我r
爱v
北京国家广播公司
天安门词云展示
importjieba
fromwordcloudimportWordCloud
来自scipy.miscimportimread
fromcollectionsimportCounter
importmatplotlib.pyplotasplt
数据={2}
文本文件=打开('./数据/19一致性.文本',' r ',编码=' utf-8 ' )
文本=文本_文件.读取(
withopen ('./数据/停止words.txt ',编码=' utf-8 ' ) as文件:
停止世界={ line.strip ()福林文件}
seg _ list=Jie ba.cut (文本,文本全部=假) ) ) ) ) ) ) ) ) )。
forwordinseg_list:
iflen(word )=2:
ifno tdata._容器_ (word ) :
数据=0
数据=1
# # print (数据)
my _ word云=word云(
background_color='white ',设定背景色
max_words=400,#设定最大安装字符数
设置字体路径=r './数据/simhei.TTF ',#字体的格式。 不设定的话无法显示中文
mask=im read ('./data/mapofchina.jpg ),#指定要在哪个图像上绘制
width=1000,
height=1000,
停止世界=停止世界
.生成_从_频率(数据) )。
PLT.figure (fig size=(18,16 ) )
PLT.im show (我的世界云)。
美国航空(关闭) ) )。
PLT.show(# (展示#词云
my _ word云文件(结果. jpg ) )。
文本文件(() ) 9500.163.com) ) ) ) ) )。
在此插入图像的说明