首页 > 编程知识 正文

分词输入法怎么使用,自动分词工具

时间:2023-05-05 00:04:06 阅读:110476 作者:3699

作为像我这样的萌新,python代码的第一步是#coding=utf-8

环境: python3.5 jieba0.39

一.如何安装jieba软件包:

方法1 )使用conda安装conda install jieba (首先使用conda search jieba查询远程仓库是否有jieba资源,如果有,则使用方法1安装,不使用方法2。 原则上优先使用conda,然后选择pip )。

方法2 :使用pip安装pip安装Jie ba

二. jieba用法

若要实现的代码,请使用open (函数)。 以下是open ) )函数的第二个参数,参数的解释如下:

r以只读方式打开文件。 文件的指针将位于文件的开头。 这是默认模式。

rb以二进制格式打开只读文件。 文件指针将放置在文件的开头。 这是默认模式。

r打开读写用的文件。 文件指针将放置在文件的开头。

rb以二进制格式打开读写文件。 文件指针将放置在文件的开头。

w打开文件是只读的。 如果文件已经存在,则复盖。 如果文件不存在,请创建新文件。

web以二进制格式打开文件并使其成为只读文件。 如果文件已经存在,则复盖。 如果文件不存在,请创建新文件。

w打开读写用的文件。 如果文件已经存在,则复盖。 如果文件不存在,请创建新文件。

web以二进制格式打开读写文件。 如果文件已经存在,则复盖。 如果文件不存在,请创建新文件。

a打开并添加文件。 如果文件已经存在,则文件指针将位于文件的末尾。 这意味着新内容将写入现有内容之后。 如果文件不存在,则创建并写入新文件。

ab以二进制格式打开并添加文件。 如果文件已经存在,则文件指针将位于文件的末尾。 这意味着新内容将写入现有内容之后。 如果文件不存在,则创建并写入新文件。

a打开读写用的文件。 如果文件已经存在,则文件指针将位于文件的末尾。 打开文件将进入添加模式。 如果文件不存在,请创建一个新文件进行读写。

ab以二进制格式打开并添加文件。 如果文件已经存在,则文件指针将位于文件的末尾。 如果文件不存在,请创建一个新文件进行读写。

以下代码读取txt文件(test.txt )的内容,使用jieba实现分词,并将分词结果写入新的txt文件(result.txt )。

#coding=utf-8

import jieba

import jieba.posseg as pseg

fileneedcut=' g :/experiment/Jie ba/test.txt '

filename=' g :/experiment/Jie ba/result.txt '

fn=open(fileneedcut,' r ',encoding='utf-8 ' )

f=open(filename,' w ',encoding='utf-8 ' ) ) ) ) )。

for line in fn.readlines () :

#Words=pseg.cut(line )带分词的词性

words=Jie ba.cut _ for _ search (line ) #是分词,不具有词性

for w in words:

print(w,file=f ) )。

f.close () )

fn.close () )

三.分词结果

词连写前的文件内容:

大会的主题是不忘初心,牢记使命

分词后的内容:

大会

主题

不会忘记的

初心

记在心里

使命

注:使用words=pseg.cut(line )可以在每个分词后添加词性标记

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。