首页 > 编程知识 正文

常用分词工具,中文分词软件

时间:2023-05-05 09:04:54 阅读:110477 作者:663

作者|汾多艾

一中文分词

分词服务界面列表

二准确率评测:

THULAC :与代表分词软件的性能比较

选择了LTP-3.2.0、ictclas(2015版)、jieba(C ) c版)等国内具有代表性的分词软件与THULAC进行了性能比较。 选择Windows作为测试环境,基于第二届国际汉语分词评估(thesecondinternationalchinesewordsegmentationbakeoff )发布的国际汉语分词评估标准,针对不同的软件进行速度和准确率

第二次国际中文分词评估包括四个机构提供的测试资料(Academia Sinica、City University、Peking University、MicrosoftResearch )、评估提供的资源ICW B2-dddd 来自这四个单位的训练集(training )、测试集(testing )和相应分词标准提供的相应测试集的标准答案(icwb2-data/scripts/gold ) .

在统一测试环境下,对上述流行分词软件和THULAC进行了测试,使用的模型是各分词软件自带的模型。 THULAC使用软件附带的简单模型Model_1。 基于英特尔酷睿I 5.4 GHz的环境测量结果如下。

评价结果1

除了上述标准测试集的评价外,还对各分词工具在大数据中的速度进行了评价,结果如下。

CNKI_journal.txt(51MB ) )。

评价结果2

分词数据的准备和评价由BosonNLP完成。 11种开放中文分词引擎大竞争。 (2015年发布) ) ) ) ) ) ) ) ) ) ) )。

分词的客观量化测试离不开标注数据,即人工准备的分词“标准答案”。 在数据源上,测试分为: 1.新闻数据: 140篇,共30517个词; 2 .微博数据: 200篇,共12962个词; 3 .汽车论坛数据(汽车之家) 100篇)共27452个词4 .餐饮点评数据(大众点评) 100条,共8295个词。

准确度计算规则:

删除所有标点符号,不进行比较

参加测试的部分系统进行实体识别,可能导致语言认定的不统一。 将对应的位置置换为人工标记的结果,得到了精度推测的上限。

经过以上处理,采用SIGHAN分词评分脚本对最终准确率、召回率、F1值进行了比较。

以上所有数据均以采用北大现代汉语基本加工规范对所有数据进行分词为准。 具体数据的下载地址请参考附录。 通过这四种数据综合比较不同分词系统的分词精度。

词连写系统的正确性比较

三付费价格:

阿里云:

AlibabaCloud (阿里巴巴云)收费价格

腾讯云:

腾云收费价格

玻森中文

免费限额:

博森中文免费限额

收费价格:

博森中文收费价格

四官网

开源工具

HanLP :

https://github.com/hankcs/HanLP

结缕草分词:

https://github.com/fxsjy/jieba

盘古分词:

http://留胡子的小懒汉. codeplex.com/

庖丁解牛:

https://code.Google.com/p/pao ding /

SWS中文分词:

33558 www.Xun search.com/scws/docs.PHP

高校工具

FudanNLP :

https://github.com/FudanNLP/fnlp

LTP :

33558 www.LTP-cloud.com/document

THULAC :

http://thulac.thunlp.org/

NLPIR :

http://ictclas.nlpir.org/docs

商业服务

BosonNLP :

http://bosonnlp.com/dev/center

百度NLP :

3359 cloud.Baidu.com/doc/NLP/NLP-API.html

Sogou分词:

33558www.sogou.com/labs/web服务/

腾讯文智:

3359 cloud.Tencent.com/document/product/271/2071

腾讯价目表:

3359 cloud.Tencent.com/document/product/271/1140

AlibabaCloud (阿里巴巴云) NLP :

3359 data.a liyun.com/product/NLP

新浪云:

33558 www.Sina cloud.com/doc/SAE/python/segment.html

测试数据集

1、SIGHANBakeoff 2005 MSR,560KB

3358 sigh an.cs.uchicago.edu/bake off 2005 /

2、SIGHANBakeoff 2005 PKU,510KB

3358 sigh an.cs.uchicago.edu/bake off 2005 /

3、人民日报2014,65mb

https://pan.baidu.com/s/1hq3KKXe

前两个数据集是用于sigh an 2005年组织的中文分词比赛的数据集,也是学术界测试分词工具的标准数据集。 本文用于测试各大分词工具的正确性,最后一组数据集规模较大,用于测试分词速度。

磐创AI: http://www.panchuangai.com/

tensorflownews:http://www.tensorflownews.com /

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。