本文介绍了三种常用的python中文分词工具。 有可以参考的东西,需要的人请参考
这三种分词工具在这里共享~
1.jieba分词: #-- coding : utf-8-- importosimportcodecsimportjiebaseg _ list=Jie ba.cut (邓超,1979年生于江西南昌)
效果:邓超/1979/年出/出生/江西/南昌//,中国/内地/男演员//电影/导演//投资/出品人//,互联网/投资者/
它包含结缕草的分词和写入文件的形式
值得注意的是,被屏蔽的字符编码是“Unicode”代码,将unicode - utf-8作为
2.sdxhd老师的NLPIR
(https://github.com/NLP IR-team/NLP IR )
在这里给出sdxhd老师的github地址,需要的朋友可以去老师的git上面拿到licence
有:天的和一个月的两种
当然,详细的代码和安装包也上传到了CSDN。 感兴趣的人请看。 还是需要更新licence。
顺便说一下,国内很多论文都使用了这个分词工具,权威的r=open(text_no_seg.txt )、 r ) ) list_senten=[]sentence='邓超,1979年出生于江西南昌,中国内地男演员,中国内地男演员
效果:邓超//,/1979年/出生/在/江西/南昌//,/中国/内地/男/演员//电影/导演//投资/出品/人//,/互联网/投资者/
当然,NLPIR是对命名实体识别也有很好效果的:邓超nr。 wd1979年t出生的vi是p江西省ns南昌ns,wd中国ns内地S男B演员N,wn电影N,wn投资N出品vi人N,wn互联网N投资人N。 wj
3 .哈佛大学LTP #-- coding : utf-8-- importosimportcodecsfrompyltpimportsegmentor #分词defsegmentor(sentence ) 3360 segmment CWS.model )加载模型words=segmentor.segment (sentence ),分词Words_list=list ) words ) ) words )。 发行模式return words _ list f1=codecs.open (d2w _ LTP.txt (, w ) ) ) sentence='邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资人、网络投资人print '/'.join (segmentor (sentence ) ) forinsegmence
效果:邓超//,/1979年/出生/在/江西/南昌//,/中国/内地/男/演员//电影/导演//投资/出品人//,/互联网/投资者/