jieba库需要安装吗,jieba库怎么用

jieba库 jieba库的安装jieba库的基本介绍jieba库的使用

jieba库的安装

（cmd命令行）

pip install jieba

也可以安装国内镜像：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba

jieba库的基本介绍

（1）jieba库概述

jieba库是优秀的中文分词第三方库。

中文文本需要通过分词获得单个的词语；
jieba是优秀的中文分词第三方库，需要额外安装；
jieba库提供三种分词模式，最简单只需掌握一个函数；

（2）jieba库分词原理

Jieba分词依靠中文词库

利用一个中文词库，确定汉字之间的关联概率
汉字间概率大的组成词组，形成分词结果
除了分词，用户还可以添加自定义的词组

jieba库的使用

jieba分词的三种模式
精确模式：把文本精确的切分开，不存在冗余单词
全模式：把文本中所有可能的词语都扫描出来，有冗余
搜索引擎模式：在精确模式基础上，对长词再次切分

jieba库函数的使用

函数描述jieba.lcut(s)精确模式，返回一个列表类型的分词结果
>>>jieba.lcut(“中国是一个伟大的国家”)
[‘中国’，‘是’，‘一个’，’伟大‘，’的‘，’国家‘]jieba.lcut(s,cut_all=True)全模式，返回一个列表类型的分词结果，存在冗余。
>>>jieba.lcut(“中国是一个伟大的国家”)
[‘中国’，‘国是’，‘一个’，’伟大‘，’的‘，’国家‘]jieba.lcut_for_search(s)搜索引擎模式，返回一个列表类型的分词结果，存在冗余。
>>>jieba.lcut_for_search(“中华人民共和国是伟大的”)
[‘中华’，‘华人’，’人民‘，’共和‘，’共和国‘，’中华人民共和国‘，’是‘，’伟大‘，’的‘]jieba.add_word(w)向分词词典增加新词w
>>>jieba.add_word(“蟒蛇语言”)