首页 > 编程知识 正文

python分词代码,python中文分词统计

时间:2023-05-04 05:53:58 阅读:110475 作者:1827

本文介绍了三种常用的python中文分词工具。 有可以参考的东西,需要的人请参考

这三种分词工具在这里共享~

1.jieba分词: #-- coding : utf-8-- importosimportcodecsimportjiebaseg _ list=Jie ba.cut (邓超,1979年生于江西南昌)

效果:邓超/1979/年出/出生/江西/南昌//,中国/内地/男演员//电影/导演//投资/出品人//,互联网/投资者/

它包含结缕草的分词和写入文件的形式

值得注意的是,被屏蔽的字符编码是“Unicode”代码,将unicode - utf-8作为

2.sdxhd老师的NLPIR

(https://github.com/NLP IR-team/NLP IR )

在这里给出sdxhd老师的github地址,需要的朋友可以去老师的git上面拿到licence

有:天的和一个月的两种

当然,详细的代码和安装包也上传到了CSDN。 感兴趣的人请看。 还是需要更新licence。

顺便说一下,国内很多论文都使用了这个分词工具,权威的r=open(text_no_seg.txt )、 r ) ) list_senten=[]sentence='邓超,1979年出生于江西南昌,中国内地男演员,中国内地男演员

效果:邓超//,/1979年/出生/在/江西/南昌//,/中国/内地/男/演员//电影/导演//投资/出品/人//,/互联网/投资者/

当然,NLPIR是对命名实体识别也有很好效果的:邓超nr。 wd1979年t出生的vi是p江西省ns南昌ns,wd中国ns内地S男B演员N,wn电影N,wn投资N出品vi人N,wn互联网N投资人N。 wj

3 .哈佛大学LTP #-- coding : utf-8-- importosimportcodecsfrompyltpimportsegmentor #分词defsegmentor(sentence ) 3360 segmment CWS.model )加载模型words=segmentor.segment (sentence ),分词Words_list=list ) words ) ) words )。 发行模式return words _ list f1=codecs.open (d2w _ LTP.txt (, w ) ) ) sentence='邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资人、网络投资人print '/'.join (segmentor (sentence ) ) forinsegmence

效果:邓超//,/1979年/出生/在/江西/南昌//,/中国/内地/男/演员//电影/导演//投资/出品人//,/互联网/投资者/

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。