首页 > 编程知识 正文

分词词库从哪里下载,jieba分词添加自定义词库

时间:2023-05-03 07:44:11 阅读:52133 作者:3001

Java版结巴语项目地址: https://github.com/Hua ban/Jie ba-analysis

1 .加载依赖

使用Maven构建项目

com.huabangroupId

jieba-analysisartifactId

1.0.2版本

从属关系

2 .加载用户定义词典

//词典的路径是Resource/dicts/jieba.dict

val path=paths.get (new file (getclass.getclass loader.get resource (dicts/Jie ba.dict ).getPath ).getabsolurce

WordDictionary.getInstance ().loaduserdict () path ) )。

3 .进行分词

import Scala.collection.javaconverters._

import com.Hua ban.analysis.Jie ba.{ jiebasegmenter,SegToken,WordDictionary}

import com.Hua ban.analysis.Jie ba.jiebasegmenter.se gmode

import scala.collection.mutable

val segmenter=new JiebaSegmenter ()

val line='这是一个伸手不见五指的夜晚。 我是lsdhs。 我喜欢北京。 我喜欢Python和c。'

vallist : mutable.buffer [ seg token ]=segmenter.process (line,SegMode.SEARCH ).asScala

用户定义分词词典的说明

三列数据:

单词

词频

词性

分隔符t或空格

分析过程如下

1、展开源代码分析,JiebaSegmenter是分词器,WordDictionary是词典。

2、分析方法,loadUserDict明显加载用户定制的词典

3、publicvoidloaduserdict (pathuserdict )需要传递到词典文件中对应的nio.Path

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。