首页 > 编程知识 正文

中文分词系统有哪些,中科院分词软件

时间:2023-05-06 14:56:02 阅读:110472 作者:3277

一.什么是NLPIR?

NLPIR (中文分词系统)由中科大xqdm博士团队开发,主要功能为中文分词、词性标注、命名实体识别、用户词典功能。 详情请参考官方网站: http://ictclas.nlpir.org/。

二.在java环境中使用:

主要参考了以下资料: http://www.360doc.com/content/14/0926/15/19424404 _ 412519063.shtml

以下是个人的使用方法,仅供参考

1、下载NLPIR工具包。 链接如下。 http://ictclas.NLP IR.org/newsdownloads? DocId=389

工具包主要包括以下内容: ()计划补记) )

2、因为NLPIR在c、c环境下,在java环境下,必须下载它提供的java接口,所以我又下载了windows下64位的JNI压缩包。 65http://ictclas.NLP IR.org/newsdownloads? DocId=353

所以现在有两个文件包: NLPIR工具包、JNI接口包。

3、可以开始构建自己的项目了:

)1)创建java项目并最终创建的目录应如下图所示。

其中,bai包里装的是自己编写的测试程序

xydxhd.zhang是64位JNI压缩包的内容,用于复制到您创建的java项目中

file:是您为自己创建的目录,Data文件来自NLPIR工具包

test:来自NLPIR工具包

NLPIR.dll来自NLPIR工具包的lib目录

NLPIR_JNI.dll来自JNI接口包

4、编写分词程序

代码是下一个:

包百搭; importkevin.zhang.NLPIR; publicclassnlpir _ test { publicstaticvoidmain (string args [ ] ) }

{try{

test (;

} catch (扩展e ) )

{

e .打印任务跟踪(;

}

}static void test () throws exception (/todo auto-generatedmethodstub /此处为)./file/)可以不进行修改

NLPIR nlpir=newNLPIR (; if (! NLP IR.NLP IR _ init ('./file/'.getbytes ),1 ) )

{

system.out.println(NLPIR初始化失败); 返回;

//句子分词测试

String temp='每日日报记得与经理合作发送,以了解项目进展情况'; byte [ ] resbytes=NLP IR.NLP IR _ paragraph process (temp.getbytes (' utf-8 ' ),0 );

System.out.println ('分词结果:'newstring ) resbytes,' UTF-8 ' ); //文件分词测试

string utf8 file=' e :/wbjddata/user _ product _ similarity/product _ vector _ pro.txt ';

string utf8 file result=' e :/wbjddata/user _ product _ similarity/product _ vector _ pro _ seg _ result.txt '

NLP IR.NLP IR _ fileprocess (utf8 file.getbytes ),utf8FileResult.getBytes ),0 ); //退出以释放资源

NLPIR.NLPIR_Exit (; //nlpir.NLPIR_FileProcess,nlpir.NLPIR_ParagraphProcess的第二个参数0表示只显示分词,不显示词性标注

}

}

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。