首页 > 编程知识 正文

java英文分词工具(java中文分词工具)

时间:2023-12-20 11:32:51 阅读:318082 作者:PQGS

本文目录一览:

谁来推荐一个JAVA的分词工具

java读取中文分词工具:linger

Java开源中文分词器

1、word分词器

2、Ansj分词器

3、Stanford分词器

4、FudanNLP分词器

5、Jieba分词器

6、Jcseg分词器

7、MMSeg4j分词器

8、IKAnalyzer分词器

9、Paoding分词器

10、smartcn分词器

java中文分词为什么用“ik”?

为什么呢?因为Lucene自带的分词器比较适合英文的分词,而IK首先是一个中文的分词器。

具体的优点先不细说,单说分词的结果来看:

1 比如说 我爱北京

使用自带的分词 我/爱/北/京

IK分词 我/爱/北京

2 可以自己扩展词典

有很多分词器是不能够进行自己扩展词典的,有自己的词典,导致分词的结果才是自己想要的结果。

3 可以自己定义停用词字典

4 和Lucene结合比较高,有很多封装好的模块。用来检索非常顺手。

当然,IK自2012年已经不再维护了。后面有出现了很多其他的分词器。

用myeclipse将英文按照空格切分 用java做,将英文按照空格切分,并且抽出of,and等词

参考代码如下

import java.util.ArrayList;

public class EnDemo {

public static void main(String[] args) {

ArrayListString preps = new ArrayListString();//用于保存不需要的介词of and等

preps.add("in");

preps.add("and");

preps.add("of");

String str = "Lucy and Lily in the class The day of week is Monday";//一句英语

String[] ss = str.trim().split("\s+");//按照1个 或者多个空格切分

ArrayListString result = new ArrayListString();//用于保存踢掉分词后的结果

for (int i = 0; i  ss.length; i++) {

String temp = ss[i];

if(preps.contains(temp)){//如果是介词.那么继续下次循环

continue;

}else{

result.add(temp);//不是介词 就添加进来

}

}

for (String w : result) {

System.out.print(w+" ");

}

}

}

java用什么分词器去 标注英文单词的词性

可以试试stanford Tagger, 百度搜索下stanford Tagger。

中文词性标注可以用hanlp.

java word分词器怎样安装在java中

word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。

如果需要安装word分词器可以参考下面的步骤:

1、确保电脑上已经安装了JDK软件和Eclispe工具,没有安装的可以到对应的官网下载安装:

JDK官网:

Eclipse官网:

2、下载word分词器的相关jar包:

打开word分词器的官方github主页:

下拉找到ReadME部分,点击“编译好的jar下载”:

页面将会跳转到到百度云盘的下载页面,按照需求下载指定的版本即可。

注意:word1.3需要JDK1.8。

下载完成之后解压到指定目录。

3、创建Java项目,导入word分词器的相关jar包:

打开Eclipse,右键创建Java project项目:

然后右键项目选择Build path打开导入页面,导入刚才下载的jar包到项目中:

导入成功之后就可以在自己的项目中使用word分词器了。

你常用的Java工具库都有哪些

Java SDK 肯定是使用最广的库,所以本文的名单焦点是流行的第三方库。该列表可能并不完善,所以如果你觉得有什么应该出现在列表中的,请留下您的评论。非常感谢!

1、核心库

Apache Commons Lang:来自Apache的核心库,为java.lang API补充了许多常用的工具类,如字符串操作、对象的创建等。

Google Guava:来自谷歌的核心库,包括集合(Collection)、缓存(Caching)、支持原语(Primitives)等。(示例)

2、HTML、XML Parser

Jsoup:一个简化了的 HTML操作的库。(示例)

STaX:一组可以高效处理 XML的API。 (示例)

3、Web框架

Spring:Java平台上众所周知的开源框架和依赖注入容器。(示例)

Struts2:来自Apache的流行Web框架。 (示例)

Google Web Toolkit:Google提供的开发工具库,主要用于构建和优化复杂的Web程序用。 (示例)

Strips:使用最新Java技术构建的Web程序框架,推荐使用。

Tapestry:面向组件的框架,用于使用Java创建动态、健壮、扩展性高的Web应用程序。

请猛击这里 查看以上面框架之间的比较。

4、图表、报表、图像

JFreeChart:用于创建如条形图、折线图、饼图等图表。

JFreeReport:创建于输出PDF格式的报表。

JGraphT:创建图像,其中只包含由线段连接的点集。

5、窗口

Swing:SDK提供的GUI库。(示例)

SWT:eclipse提供的GUI库。

SWT与Swing的比较。

6.、GUI框架

Eclipse RCP。(示例)

7、自然语言处理

OpenNLP:来自Apache的自然语言处理库。 (示例)

Stanford Parser:斯坦福大学提供的自然语言处理库。(示例)

如果你是一名NLP专家,请猛击这里 查看更多工具库介绍。

8、静态分析

Eclipse JDT:由IBM提供的静态分析库,可以操作Java源代码。(示例)

WALA:可以处理jar包文件(即字节码)的工具库。(示例)

9、JSON

Jackson: 用于处理JSON数据格式的多用途的Java库。Jackson 旨在快速、准确、轻量、对开人员友好之间找到最好的平衡点。

XStream:一个简单用于对象和XML互相转换的库。

Google Gson:一个专门用于Java对象和Json对象相互转换的工具库。(示例)

JSON-lib:用于 beans、maps、collections、java arrays、XML 和 JSON 之间相互转换操作的工具库。

10、数学

Apache Commons Math:提供数学计算和数值统计需函数的工具库。

11、日志

Apache Log4j:风行一时的日志记录操作库。 (示例)

Logback:当前流行的log4j项目的继任者。

SLF4J(The Simple Logging Facade for Java): 各种日志框架的一个简单的外观或抽象(如java.util.logging 、logback、log4j等),允许用户在部署时加入需要的日志框架。

12、Office

Apache POI:利用其提供的APIs,可以使用纯Java代码操作各种基于微软OLE2合成文档格式的文档。

Docx4j:一个用于创建、操作微软公开的XML文件的库(支持Word docx、 Powerpoint pptx和Excel xlsx)。

13、日期和时间

Joda-Time:如有质量问题包退包换的Java日期和时间类。

14、数据库

Hibernate、EclipseLink、JPA

JDO

jOOQ

SpringJDBC、Spring Data

Apache DbUtils

15、开发工具

Lambok: 旨在减少代码编写的Java开发库。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。