作为像我这样的萌新,python代码的第一步是#coding=utf-8
环境: python3.5 jieba0.39
一.如何安装jieba软件包:
方法1 )使用conda安装conda install jieba (首先使用conda search jieba查询远程仓库是否有jieba资源,如果有,则使用方法1安装,不使用方法2。 原则上优先使用conda,然后选择pip )。
方法2 :使用pip安装pip安装Jie ba
二. jieba用法
若要实现的代码,请使用open (函数)。 以下是open ) )函数的第二个参数,参数的解释如下:
r以只读方式打开文件。 文件的指针将位于文件的开头。 这是默认模式。
rb以二进制格式打开只读文件。 文件指针将放置在文件的开头。 这是默认模式。
r打开读写用的文件。 文件指针将放置在文件的开头。
rb以二进制格式打开读写文件。 文件指针将放置在文件的开头。
w打开文件是只读的。 如果文件已经存在,则复盖。 如果文件不存在,请创建新文件。
web以二进制格式打开文件并使其成为只读文件。 如果文件已经存在,则复盖。 如果文件不存在,请创建新文件。
w打开读写用的文件。 如果文件已经存在,则复盖。 如果文件不存在,请创建新文件。
web以二进制格式打开读写文件。 如果文件已经存在,则复盖。 如果文件不存在,请创建新文件。
a打开并添加文件。 如果文件已经存在,则文件指针将位于文件的末尾。 这意味着新内容将写入现有内容之后。 如果文件不存在,则创建并写入新文件。
ab以二进制格式打开并添加文件。 如果文件已经存在,则文件指针将位于文件的末尾。 这意味着新内容将写入现有内容之后。 如果文件不存在,则创建并写入新文件。
a打开读写用的文件。 如果文件已经存在,则文件指针将位于文件的末尾。 打开文件将进入添加模式。 如果文件不存在,请创建一个新文件进行读写。
ab以二进制格式打开并添加文件。 如果文件已经存在,则文件指针将位于文件的末尾。 如果文件不存在,请创建一个新文件进行读写。
以下代码读取txt文件(test.txt )的内容,使用jieba实现分词,并将分词结果写入新的txt文件(result.txt )。
#coding=utf-8
import jieba
import jieba.posseg as pseg
fileneedcut=' g :/experiment/Jie ba/test.txt '
filename=' g :/experiment/Jie ba/result.txt '
fn=open(fileneedcut,' r ',encoding='utf-8 ' )
f=open(filename,' w ',encoding='utf-8 ' ) ) ) ) )。
for line in fn.readlines () :
#Words=pseg.cut(line )带分词的词性
words=Jie ba.cut _ for _ search (line ) #是分词,不具有词性
for w in words:
print(w,file=f ) )。
f.close () )
fn.close () )
三.分词结果
词连写前的文件内容:
大会的主题是不忘初心,牢记使命
分词后的内容:
大会
的
主题
是
:
不会忘记的
初心
,
记在心里
使命
注:使用words=pseg.cut(line )可以在每个分词后添加词性标记