python分词代码(python进行英文分词)

jieba是中文自然语言处理中使用最多的工具包之一，以分词为首，实现了分词、词性标记、命名实体识别等多种功能。既然Jieba是以分词开始的，我们就必须先学习Jieba的中文分词功能。 Jieba有三种分词模式。

精确模式：在这种模式下，Jieba将语句最精确地划分为所有模式。扫描句子中的所有单词。该模式非常快，缺点明显，是一种不能有效解决歧义的问题搜索引擎模式。根据精确模式，重新分割长单词。该模式适用于搜索引擎构建索引的分词importjieba

seg_list=jieba.cut (我来到北京清华大学(cut_all=True ) )。

print ('全模式：''/'.join ) seg_list ) #全模式

seg_list=jieba.cut (我来到了北京清华大学(cut_all=False ) )。

print ('严格模式：''/'.join ) seg_list ) #严格模式

seg_list=jieba.cut (我来到北京清华大学) #默认为精密模式

打印('，'.join(seg_list ) )

str='我是中国人"

word1=Jieba.cut_for_search(str ) #搜索引擎模式

财富1:强

是打印(item )

OUT:

全模式：我/来/北京/清华/清华大学/华大/大学

精确模式：我/来/北京/清华大学

我，来到了北京，清华大学

我

是

个

中国

有些人可能需要添加自定义词典来添加自定义词典，因为词典中没有这个词

#mydict.txt内容

# #干清宫1n#语分为一个词类

# #黄琉璃瓦1n

Jie ba.load _ user dict ('./data/mydict.txt ' )需要UTF-8，可以在另存中设置

jieba.add_word (也可以使用“干清宫”

text='故宫有名的景点有干清宫、太和殿、黄琉璃瓦等'

# #全模式

seg _ list=Jie ba.cut (文本，cut _ all=真) ) ) ) ) ) ) )。

print(u ) ]: (，(/).join ) seg_list ) )

# #精密模式

seg _ list=Jie ba.cut (文本，文本全部=假) ) ) ) ) ) ) ) ) )。

print(u ) ]: (，(/).join ) seg_list ) )

OUT:

[全模式]:故宫/的/知名/知名景点/景点/包括/干清宫/清宫///太和/太和殿/和/黄璃瓦/琉璃/琉璃瓦/琉璃瓦/

[精确模式]:故宫/的/有名的景点/包含/干清宫/，/太和殿/和/黄琉瓦/等关键词提取

importjieba.analyse

用于名为analyse的包

seg _ list=Jie ba.cut (文本，文本全部=假) ) ) ) ) ) ) ) ) )。

print(u )分词结果： ) ) ) )。

打印((/) .连接) seg _列表) )

text='故宫有名的景点有干清宫、太和殿、黄琉璃瓦等'

# #获取关键字

tags=Jie ba.analyse.extract _ tags (文本，主题=5) #前五个

打印(u )关键字： ) ) )。

打印(' .连接)标签) )

出局：

分词结果：

故宫/的/有名的观光地/包/干清宫/，/太和殿/和/黄琉瓦/等

关键字：

着名景点干清宫黄琉璃瓦太和殿故宫印刷关键词

tags=Jie ba.analyse.extract _ tags (文本，主题=5，with weight=真) #显示比重

向前，权重标签：

打印(word，权重) )。

OUT:

有名的观光地2.3167796086666668

干宫1.9924612504833332

黄琉璃瓦1.9924612504833332

太和殿1.6938346722833335

故宫1.5411195503033335词类标签

importjieba.possegaspseg

words=pseg.cut (我爱北京天安门) )

向前，flaginwords:

打印(' % s % s % )世界，标志)

OUTL

我r

爱v

北京国家广播公司

天安门词云展示

importjieba

fromwordcloudimportWordCloud

来自scipy.miscimportimread

fromcollectionsimportCounter

importmatplotlib.pyplotasplt

数据={2}

文本文件=打开('./数据/19一致性.文本'，' r '，编码=' utf-8 ' )

文本=文本_文件.读取(

withopen ('./数据/停止words.txt '，编码=' utf-8 ' ) as文件：

停止世界={ line.strip ()福林文件}

seg _ list=Jie ba.cut (文本，文本全部=假) ) ) ) ) ) ) ) ) )。

forwordinseg_list:

iflen(word )=2:

ifno tdata._容器_ (word ) :

数据=0

数据=1

# # print (数据)

my _ word云=word云(

background_color='white '，设定背景色

max_words=400，#设定最大安装字符数

设置字体路径=r './数据/simhei.TTF '，#字体的格式。不设定的话无法显示中文

mask=im read ('./data/mapofchina.jpg )，#指定要在哪个图像上绘制

width=1000，

height=1000，

停止世界=停止世界

.生成_从_频率(数据) )。

PLT.figure (fig size=(18，16 ) )

PLT.im show (我的世界云)。

美国航空(关闭) ) )。

PLT.show(# (展示#词云

my _ word云文件(结果. jpg ) )。

文本文件(() ) 9500.163.com) ) ) ) ) )。

在此插入图像的说明