1、JBA库基本介绍
(1)、jieba库概述
jieba是一个优秀的中文分词第三方库
中文课文需要分词得到单一的词
- jieba是一个优秀的中文分词第三方库,需要额外安装
- jieba库有三种分词模式,最简单的是一个函数
) 2、杰坝分词原理
Jieba分词依靠中文词典
使用中文词典,确定汉字之间的关联概率
-构成汉字间概率高的短语,形成分词结果
-除了分词,用户还可以添加自定义短语
2、jieba库使用说明
(1)、杰坝分词三种模式
精密模式、全模式、搜索引擎模式
-正确模式:正确分隔文本。 不存在冗长的单词
-完整模式:扫描文本中所有可能的词语,具有冗馀性
-搜索引擎模式:根据精确模式重新划分长词
) 2、jieba库中常用的函数
3、jieba应用案例
4、利用JBA库统计三国演义中任务出场次数
importjieba
txt=open(d: ((三国演义. txt )、(r )、encoding=(utf-8 ) ).read ) ) )
words=Jieba.lcut(txt )使用精确模式分隔文本
counts={} #将单词及其出现次数存储为键值对
前锋: if len (word )==1: #不计入单个单词
连续
else:
counts[word]=counts.get(word,0 )1#遍历所有单词,每次出现时在对应的值上加1
items=list(counts.items ) #将键值对转换为列表
items.sort (key=lambdax : x [1],reverse=True ) #根据单词的出现次数按从大到小排序
forIinrange(15 ) :
word,count=items [ I ] print (' { 0:5 } { 1:5 } '.format ) word,count )
数一下次数就相当于前15名,不难发现,潇洒的春天不愧为一生的枭雄,虽然无愧于第一名,但在得到的数据中还需要更多的处理,比如无谓的话和重复的意思的话等。