一.什么是NLPIR?
NLPIR (中文分词系统)由中科大xqdm博士团队开发,主要功能为中文分词、词性标注、命名实体识别、用户词典功能。 详情请参考官方网站: http://ictclas.nlpir.org/。
二.在java环境中使用:
主要参考了以下资料: http://www.360doc.com/content/14/0926/15/19424404 _ 412519063.shtml
以下是个人的使用方法,仅供参考
1、下载NLPIR工具包。 链接如下。 http://ictclas.NLP IR.org/newsdownloads? DocId=389
工具包主要包括以下内容: ()计划补记) )
2、因为NLPIR在c、c环境下,在java环境下,必须下载它提供的java接口,所以我又下载了windows下64位的JNI压缩包。 65http://ictclas.NLP IR.org/newsdownloads? DocId=353
所以现在有两个文件包: NLPIR工具包、JNI接口包。
3、可以开始构建自己的项目了:
)1)创建java项目并最终创建的目录应如下图所示。
其中,bai包里装的是自己编写的测试程序
xydxhd.zhang是64位JNI压缩包的内容,用于复制到您创建的java项目中
file:是您为自己创建的目录,Data文件来自NLPIR工具包
test:来自NLPIR工具包
NLPIR.dll来自NLPIR工具包的lib目录
NLPIR_JNI.dll来自JNI接口包
4、编写分词程序
代码是下一个:
包百搭; importkevin.zhang.NLPIR; publicclassnlpir _ test { publicstaticvoidmain (string args [ ] ) }
{try{
test (;
} catch (扩展e ) )
{
e .打印任务跟踪(;
}
}static void test () throws exception (/todo auto-generatedmethodstub /此处为)./file/)可以不进行修改
NLPIR nlpir=newNLPIR (; if (! NLP IR.NLP IR _ init ('./file/'.getbytes ),1 ) )
{
system.out.println(NLPIR初始化失败); 返回;
//句子分词测试
String temp='每日日报记得与经理合作发送,以了解项目进展情况'; byte [ ] resbytes=NLP IR.NLP IR _ paragraph process (temp.getbytes (' utf-8 ' ),0 );
System.out.println ('分词结果:'newstring ) resbytes,' UTF-8 ' ); //文件分词测试
string utf8 file=' e :/wbjddata/user _ product _ similarity/product _ vector _ pro.txt ';
string utf8 file result=' e :/wbjddata/user _ product _ similarity/product _ vector _ pro _ seg _ result.txt '
NLP IR.NLP IR _ fileprocess (utf8 file.getbytes ),utf8FileResult.getBytes ),0 ); //退出以释放资源
NLPIR.NLPIR_Exit (; //nlpir.NLPIR_FileProcess,nlpir.NLPIR_ParagraphProcess的第二个参数0表示只显示分词,不显示词性标注
}
}