首页 > 编程知识 正文

jieba分词如何去除停用词,jieba分词词性实例

时间:2023-05-03 16:53:04 阅读:110468 作者:4234

jieba中文分词工具包(一) 01简介)结巴)中文分词:做最好的Python中文分词组件;

”Jieba“(Chinesefor“tostutter”) chinesetextsegmentation : builttobethebestpythonchinesewordsegmentationmodule。

关于中文的自然语言处理,首先需要将段落和句子切分成词。 这是最基础的一步操作,分词属于词法分析的基础部分。

如何安装jieba? pip install jieba

如何引用jieba? import jieba

02 jieba算法基于前缀字典实现了高效的单词图像扫描,由生成语句中汉字所有可能单词情况组成的有向图(DAG )采用动态规划寻找最大概率路径,并基于词数找到最大分割组合。 对于未登录词,采用了基于汉字成语能力的HMM模型,使用了Viterbi算法。 03分词模式jieba分词模式:

精确模式全模式搜索引擎模式(1)精确模式) )默认模式)文件最精确,适用于文本分析。

import jiebaseg_list=jieba.cut (就读于东南大学网络空间安全学院(cut_all=True ) print ) )全模式: ((/).Join ) )

【精密模式】:我就读于东南大学/网络空间/安全/学院

)扫描所有模式语句中的所有的单词,发现速度非常快,但为不能解决歧义

import jiebaseg_list=jieba.cut (就读于东南大学网络空间安全学院(cut_all=False ) print ) defaultmode3360 () (/).Join ) sssd

【全模式】:我就读于/东南/东南大学/南大/大学/网络/网络空间/空间/安全/学院

)3)搜索引擎模式基于精确模式,重新划分字段,提高召回率、事故和搜索引擎所用分词。

importjiebaseg _ list=Jie ba.cut (TMD hm硕士毕业于中国科学院计算,在日本京都大学学习)、cut_all=False ) print (' default mode 3360 '/'.joid

【精准模型】: tmdhm/硕士/毕业/在/中国科学院/计算/,/后/在/日本京都大学/深造tmdhm,硕士、毕业、在、中国科学、学院、科学院、中国科学院、计算、后、日本

)新词识别新词问题当我们遇到一些新词时,jieba可能会不正确分词。 例如,对以下句子进行分词时:

import jiebaseg_list=jieba.cut ('刚才做的这个菜叫杂炖。' 、cut_all=False ) print (' default mode : '/'.join (seg _ list ) #正确模式输出结果:

【精准模式】:刚才/做/出/的/子/道菜/叫/杂乱/炖/

如何解决新词的问题? 创建自定义词典文件。 文件格式为txt。

词典格式与dict.txt相同,一个词单独占一行;

每行分为三个部分。

词数(可选)、词类(可选)、可选)的三个部分用空格隔开,顺序不能颠倒。

* *如果**filename是以路径或二进制文件打开的文件,则该文件必须采用UTF-8编码。 *省略词数时,使用自动计算的内容可以保证分离该词。

解决办法:

在本地创建一个名为userdict.txt的文件,并将“添加词汇”添加到自定义词典中。 例如,以新单词的词数(词数越多,对该单词的词分写的精度和优先级就越高)的形式保存。

具体使用方法:

JIAba.load_userDict(filename ) ) ) ) ) ) )。

filename :文件类对象或自定义词典的路径。

使用以下代码可以完成正确的分词。

importjiebajieba.load _ user dict (r ' c : (users (aze ) desktop(NLP(examplecode ) jieba ' ) seg _ list=jj IEG ()

【精准模式】:刚才/做/出/的/子/道菜/叫/杂煮/

分词函数的总结jieba.cut方法接受三个输入参数。 需要分词的字符串; cut_all参数用于控制是否采用完全模式; HMM参数控制是否使用HMM模型。

jieba.cut_fot_search方法接受两个参数:需要分词的字符串。 是否使用HMM模型。 该方法适用于搜索引擎构建倒排索引的分词,粒度较细。

此处的分隔字符串可以是unicode、UTF-8字符串或GBK字符串。

注意:不建议直接输入GBK字符串。 可能意外地错误解码为UTF-8

jieba.cut和jieba.cut_fot_search的返回结构都是可重复的generator,使用for循环获得分词后得到的所有单词(unicode )或

jieba.lcut和jieba.lcut_for_直接返回到list

Jie ba.tokenizer (dictionary=default _ dict )新的定制分词器可用于同时使用不同的词典。

jieba.dt是默认分词器,所有全局分词相关函数都是其分词的映射。

参考博客: https://blog.csdn.net/dujiafengv/article/details/100172139? UTM _ source=appapp _ version=4.7.1code=app _ 1562916241 ulink id=usr1mkqgl 919 blen https://MP.weixin.QQ.com/s _ biz=mzu0NDU5oty2ng==mid=2247483683 idx=1sn=F4 D7 BCD 764 F5 DBE 777 DC0e 4c 8228 chksm=FB 78 fa 3e cc 0f 73283 f 34042 e 11842 d 522 d

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。