分词词库从哪里下载,jieba分词添加自定义词库

Java版结巴语项目地址： https://github.com/Hua ban/Jie ba-analysis

1 .加载依赖

使用Maven构建项目

com.huabangroupId

jieba-analysisartifactId

1.0.2版本

从属关系

2 .加载用户定义词典

//词典的路径是Resource/dicts/jieba.dict

val path=paths.get (new file (getclass.getclass loader.get resource (dicts/Jie ba.dict ).getPath ).getabsolurce

WordDictionary.getInstance ().loaduserdict () path ) )。

3 .进行分词

import Scala.collection.javaconverters._

import com.Hua ban.analysis.Jie ba.{ jiebasegmenter，SegToken，WordDictionary}

import com.Hua ban.analysis.Jie ba.jiebasegmenter.se gmode

import scala.collection.mutable

val segmenter=new JiebaSegmenter ()

val line='这是一个伸手不见五指的夜晚。我是lsdhs。我喜欢北京。我喜欢Python和c。'

vallist : mutable.buffer [ seg token ]=segmenter.process (line，SegMode.SEARCH ).asScala

用户定义分词词典的说明

三列数据：

单词

词频

词性

分隔符t或空格

分析过程如下

1、展开源代码分析，JiebaSegmenter是分词器，WordDictionary是词典。

2、分析方法，loadUserDict明显加载用户定制的词典

3、publicvoidloaduserdict (pathuserdict )需要传递到词典文件中对应的nio.Path