首页 > 编程知识 正文

python分词代码(python进行英文分词)

时间:2023-05-05 21:37:46 阅读:92307 作者:2009

jieba是中文自然语言处理中使用最多的工具包之一,以分词为首,实现了分词、词性标记、命名实体识别等多种功能。 既然Jieba是以分词开始的,我们就必须先学习Jieba的中文分词功能。 Jieba有三种分词模式。

精确模式:在这种模式下,Jieba将语句最精确地划分为所有模式。 扫描句子中的所有单词。 该模式非常快,缺点明显,是一种不能有效解决歧义的问题搜索引擎模式。 根据精确模式,重新分割长单词。 该模式适用于搜索引擎构建索引的分词importjieba

seg_list=jieba.cut (我来到北京清华大学(cut_all=True ) )。

print ('全模式:''/'.join ) seg_list ) #全模式

seg_list=jieba.cut (我来到了北京清华大学(cut_all=False ) )。

print ('严格模式:''/'.join ) seg_list ) #严格模式

seg_list=jieba.cut (我来到北京清华大学) #默认为精密模式

打印(','.join(seg_list ) )

str='我是中国人"

word1=Jieba.cut_for_search(str ) #搜索引擎模式

财富1:强

是打印(item )

OUT:

全模式:我/来/北京/清华/清华大学/华大/大学

精确模式:我/来/北京/清华大学

我,来到了北京,清华大学

中国

有些人可能需要添加自定义词典来添加自定义词典,因为词典中没有这个词

#mydict.txt内容

# #干清宫1n#语分为一个词类

# #黄琉璃瓦1n

Jie ba.load _ user dict ('./data/mydict.txt ' )需要UTF-8,可以在另存中设置

jieba.add_word (也可以使用“干清宫”

text='故宫有名的景点有干清宫、太和殿、黄琉璃瓦等'

# #全模式

seg _ list=Jie ba.cut (文本,cut _ all=真) ) ) ) ) ) ) )。

print(u ) ]: (,(/).join ) seg_list ) )

# #精密模式

seg _ list=Jie ba.cut (文本,文本全部=假) ) ) ) ) ) ) ) ) )。

print(u ) ]: (,(/).join ) seg_list ) )

OUT:

[全模式]:故宫/的/知名/知名景点/景点/包括/干清宫/清宫///太和/太和殿/和/黄璃瓦/琉璃/琉璃瓦/琉璃瓦/

[精确模式]:故宫/的/有名的景点/包含/干清宫/,/太和殿/和/黄琉瓦/等关键词提取

importjieba.analyse

用于名为analyse的包

seg _ list=Jie ba.cut (文本,文本全部=假) ) ) ) ) ) ) ) ) )。

print(u )分词结果: ) ) ) )。

打印((/) .连接) seg _列表) )

text='故宫有名的景点有干清宫、太和殿、黄琉璃瓦等'

# #获取关键字

tags=Jie ba.analyse.extract _ tags (文本,主题=5) #前五个

打印(u )关键字: ) ) )。

打印(' .连接)标签) )

出局:

分词结果:

故宫/的/有名的观光地/包/干清宫/,/太和殿/和/黄琉瓦/等

关键字:

着名景点干清宫黄琉璃瓦太和殿故宫印刷关键词

tags=Jie ba.analyse.extract _ tags (文本,主题=5,with weight=真) #显示比重

向前,权重标签:

打印(word,权重) )。

OUT:

有名的观光地2.3167796086666668

干宫1.9924612504833332

黄琉璃瓦1.9924612504833332

太和殿1.6938346722833335

故宫1.5411195503033335词类标签

importjieba.possegaspseg

words=pseg.cut (我爱北京天安门) )

向前,flaginwords:

打印(' % s % s % )世界,标志)

OUTL

我r

爱v

北京国家广播公司

天安门词云展示

importjieba

fromwordcloudimportWordCloud

来自scipy.miscimportimread

fromcollectionsimportCounter

importmatplotlib.pyplotasplt

数据={2}

文本文件=打开('./数据/19一致性.文本',' r ',编码=' utf-8 ' )

文本=文本_文件.读取(

withopen ('./数据/停止words.txt ',编码=' utf-8 ' ) as文件:

停止世界={ line.strip ()福林文件}

seg _ list=Jie ba.cut (文本,文本全部=假) ) ) ) ) ) ) ) ) )。

forwordinseg_list:

iflen(word )=2:

ifno tdata._容器_ (word ) :

数据=0

数据=1

# # print (数据)

my _ word云=word云(

background_color='white ',设定背景色

max_words=400,#设定最大安装字符数

设置字体路径=r './数据/simhei.TTF ',#字体的格式。 不设定的话无法显示中文

mask=im read ('./data/mapofchina.jpg ),#指定要在哪个图像上绘制

width=1000,

height=1000,

停止世界=停止世界

.生成_从_频率(数据) )。

PLT.figure (fig size=(18,16 ) )

PLT.im show (我的世界云)。

美国航空(关闭) ) )。

PLT.show(# (展示#词云

my _ word云文件(结果. jpg ) )。

文本文件(() ) 9500.163.com) ) ) ) ) )。

在此插入图像的说明

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。