首页 > 编程知识 正文

python中jieba库的使用,python中math库

时间:2023-05-06 03:10:08 阅读:32505 作者:1062

1、JBA库基本介绍

(1)、jieba库概述

jieba是一个优秀的中文分词第三方库

中文课文需要分词得到单一的词

- jieba是一个优秀的中文分词第三方库,需要额外安装

- jieba库有三种分词模式,最简单的是一个函数

) 2、杰坝分词原理

Jieba分词依靠中文词典

使用中文词典,确定汉字之间的关联概率

-构成汉字间概率高的短语,形成分词结果

-除了分词,用户还可以添加自定义短语

2、jieba库使用说明

(1)、杰坝分词三种模式

精密模式、全模式、搜索引擎模式

-正确模式:正确分隔文本。 不存在冗长的单词

-完整模式:扫描文本中所有可能的词语,具有冗馀性

-搜索引擎模式:根据精确模式重新划分长词

) 2、jieba库中常用的函数

3、jieba应用案例

4、利用JBA库统计三国演义中任务出场次数

importjieba

txt=open(d: ((三国演义. txt )、(r )、encoding=(utf-8 ) ).read ) ) )

words=Jieba.lcut(txt )使用精确模式分隔文本

counts={} #将单词及其出现次数存储为键值对

前锋: if len (word )==1: #不计入单个单词

连续

else:

counts[word]=counts.get(word,0 )1#遍历所有单词,每次出现时在对应的值上加1

items=list(counts.items ) #将键值对转换为列表

items.sort (key=lambdax : x [1],reverse=True ) #根据单词的出现次数按从大到小排序

forIinrange(15 ) :

word,count=items [ I ] print (' { 0:5 } { 1:5 } '.format ) word,count )

数一下次数就相当于前15名,不难发现,潇洒的春天不愧为一生的枭雄,虽然无愧于第一名,但在得到的数据中还需要更多的处理,比如无谓的话和重复的意思的话等。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。