Java版结巴语项目地址: https://github.com/Hua ban/Jie ba-analysis
1 .加载依赖
使用Maven构建项目
com.huabangroupId
jieba-analysisartifactId
1.0.2版本
从属关系
2 .加载用户定义词典
//词典的路径是Resource/dicts/jieba.dict
val path=paths.get (new file (getclass.getclass loader.get resource (dicts/Jie ba.dict ).getPath ).getabsolurce
WordDictionary.getInstance ().loaduserdict () path ) )。
3 .进行分词
import Scala.collection.javaconverters._
import com.Hua ban.analysis.Jie ba.{ jiebasegmenter,SegToken,WordDictionary}
import com.Hua ban.analysis.Jie ba.jiebasegmenter.se gmode
import scala.collection.mutable
val segmenter=new JiebaSegmenter ()
val line='这是一个伸手不见五指的夜晚。 我是lsdhs。 我喜欢北京。 我喜欢Python和c。'
vallist : mutable.buffer [ seg token ]=segmenter.process (line,SegMode.SEARCH ).asScala
用户定义分词词典的说明
三列数据:
单词
词频
词性
分隔符t或空格
分析过程如下
1、展开源代码分析,JiebaSegmenter是分词器,WordDictionary是词典。
2、分析方法,loadUserDict明显加载用户定制的词典
3、publicvoidloaduserdict (pathuserdict )需要传递到词典文件中对应的nio.Path