python中jieba库的使用,python中math库

1、JBA库基本介绍

(1)、jieba库概述

jieba是一个优秀的中文分词第三方库

中文课文需要分词得到单一的词

- jieba是一个优秀的中文分词第三方库，需要额外安装

- jieba库有三种分词模式，最简单的是一个函数

) 2、杰坝分词原理

Jieba分词依靠中文词典

使用中文词典，确定汉字之间的关联概率

-构成汉字间概率高的短语，形成分词结果

-除了分词，用户还可以添加自定义短语

2、jieba库使用说明

(1)、杰坝分词三种模式

精密模式、全模式、搜索引擎模式

-正确模式：正确分隔文本。不存在冗长的单词

-完整模式：扫描文本中所有可能的词语，具有冗馀性

-搜索引擎模式：根据精确模式重新划分长词

) 2、jieba库中常用的函数

3、jieba应用案例

4、利用JBA库统计三国演义中任务出场次数

importjieba

txt=open(d: ((三国演义. txt )、(r )、encoding=(utf-8 ) ).read ) ) )

words=Jieba.lcut(txt )使用精确模式分隔文本

counts={} #将单词及其出现次数存储为键值对

前锋： if len (word )==1: #不计入单个单词

连续

else:

counts[word]=counts.get(word，0 )1#遍历所有单词，每次出现时在对应的值上加1

items=list(counts.items ) #将键值对转换为列表

items.sort (key=lambdax : x [1]，reverse=True ) #根据单词的出现次数按从大到小排序

forIinrange(15 ) :

word，count=items [ I ] print (' { 0:5 } { 1:5 } '.format ) word，count )

数一下次数就相当于前15名，不难发现，潇洒的春天不愧为一生的枭雄，虽然无愧于第一名，但在得到的数据中还需要更多的处理，比如无谓的话和重复的意思的话等。