python分词代码,python中文分词统计

本文介绍了三种常用的python中文分词工具。有可以参考的东西，需要的人请参考

这三种分词工具在这里共享~

1.jieba分词： #-- coding : utf-8-- importosimportcodecsimportjiebaseg _ list=Jie ba.cut (邓超，1979年生于江西南昌)

效果：邓超/1979/年出/出生/江西/南昌//，中国/内地/男演员//电影/导演//投资/出品人//，互联网/投资者/

它包含结缕草的分词和写入文件的形式

值得注意的是，被屏蔽的字符编码是“Unicode”代码，将unicode - utf-8作为

2.sdxhd老师的NLPIR

(https://github.com/NLP IR-team/NLP IR )

在这里给出sdxhd老师的github地址，需要的朋友可以去老师的git上面拿到licence

有：天的和一个月的两种

当然，详细的代码和安装包也上传到了CSDN。感兴趣的人请看。还是需要更新licence。

顺便说一下，国内很多论文都使用了这个分词工具，权威的r=open(text_no_seg.txt )、 r ) ) list_senten=[]sentence='邓超，1979年出生于江西南昌，中国内地男演员，中国内地男演员

效果：邓超//，/1979年/出生/在/江西/南昌//，/中国/内地/男/演员//电影/导演//投资/出品/人//，/互联网/投资者/

当然，NLPIR是对命名实体识别也有很好效果的：邓超nr。 wd1979年t出生的vi是p江西省ns南昌ns，wd中国ns内地S男B演员N，wn电影N，wn投资N出品vi人N，wn互联网N投资人N。 wj

3 .哈佛大学LTP #-- coding : utf-8-- importosimportcodecsfrompyltpimportsegmentor #分词defsegmentor(sentence ) 3360 segmment CWS.model )加载模型words=segmentor.segment (sentence )，分词Words_list=list ) words ) ) words )。发行模式return words _ list f1=codecs.open (d2w _ LTP.txt (， w ) ) ) sentence='邓超，1979年出生于江西南昌，中国内地男演员、电影导演、投资人、网络投资人print '/'.join (segmentor (sentence ) ) forinsegmence

效果：邓超//，/1979年/出生/在/江西/南昌//，/中国/内地/男/演员//电影/导演//投资/出品人//，/互联网/投资者/