中文分词系统有哪些,中科院分词软件

一.什么是NLPIR？

NLPIR (中文分词系统)由中科大xqdm博士团队开发，主要功能为中文分词、词性标注、命名实体识别、用户词典功能。详情请参考官方网站： http://ictclas.nlpir.org/。

二.在java环境中使用：

主要参考了以下资料： http://www.360doc.com/content/14/0926/15/19424404 _ 412519063.shtml

以下是个人的使用方法，仅供参考

1、下载NLPIR工具包。链接如下。 http://ictclas.NLP IR.org/newsdownloads？ DocId=389

工具包主要包括以下内容： ()计划补记) )

2、因为NLPIR在c、c环境下，在java环境下，必须下载它提供的java接口，所以我又下载了windows下64位的JNI压缩包。 65http://ictclas.NLP IR.org/newsdownloads？ DocId=353

所以现在有两个文件包： NLPIR工具包、JNI接口包。

3、可以开始构建自己的项目了：

)1)创建java项目并最终创建的目录应如下图所示。

其中，bai包里装的是自己编写的测试程序

xydxhd.zhang是64位JNI压缩包的内容，用于复制到您创建的java项目中

file:是您为自己创建的目录，Data文件来自NLPIR工具包

test:来自NLPIR工具包

NLPIR.dll来自NLPIR工具包的lib目录

NLPIR_JNI.dll来自JNI接口包

4、编写分词程序

代码是下一个：

包百搭； importkevin.zhang.NLPIR； publicclassnlpir _ test { publicstaticvoidmain (string args [ ] ) }

{try{

test (；

} catch (扩展e ) )

{

e .打印任务跟踪(；

}

}static void test () throws exception (/todo auto-generatedmethodstub /此处为)./file/)可以不进行修改

NLPIR nlpir=newNLPIR (； if (！ NLP IR.NLP IR _ init ('./file/'.getbytes )，1 ) )

{

system.out.println(NLPIR初始化失败)；返回；

//句子分词测试

String temp='每日日报记得与经理合作发送，以了解项目进展情况'； byte [ ] resbytes=NLP IR.NLP IR _ paragraph process (temp.getbytes (' utf-8 ' )，0 )；

System.out.println ('分词结果：'newstring ) resbytes，' UTF-8 ' )； //文件分词测试

string utf8 file=' e :/wbjddata/user _ product _ similarity/product _ vector _ pro.txt '；

string utf8 file result=' e :/wbjddata/user _ product _ similarity/product _ vector _ pro _ seg _ result.txt '

NLP IR.NLP IR _ fileprocess (utf8 file.getbytes )，utf8FileResult.getBytes )，0 )； //退出以释放资源

NLPIR.NLPIR_Exit (； //nlpir.NLPIR_FileProcess，nlpir.NLPIR_ParagraphProcess的第二个参数0表示只显示分词，不显示词性标注

}