自然语言处理基本技术,nlp自然语言处理视频

我刚和三快在线(美团)的算法老同学谈了一下他们现有分词工具效果不好的问题。我们最终讨论的结果，要么无效，要么效果不好，只有不适合，毕竟要看每个分词工具中模型的基础训练数据成分构成。

本人日常工作中常用的分词工具1、jieba分词

2、lac分词

3、公司根据自己领域内的数据培训、封装的分词工具jimi分词，未对外公开。

今天重点谈谈前两个常见的分词工具1、jieba分词支持四种分词模式。精确模式

全模式扫描文中的每一个词，都很快，但无法解决歧义；

搜索引擎模式根据正确的模式，重新分割长单词，提高召回率，适用于搜索引擎的分词。

paddle模式利用PaddlePaddle深度学习框架，训练序列表示(双向GRU )网络模型实现分词。也支持词性标注。

基础算法支持基于前缀词典实现高效的词图扫描，生成由文中汉字所有可能单词情况组成的有向无环图(DAG )

采用动态规划查找最大概率路径，找到了基于词数的最大分割组合

对未登录词，采用基于汉字成语能力的HMM模型，采用Viterbi算法

对于其他基础API，建议基于千兆链接： https://github.com/fxs jy/jiebajieba分词亮点：亮点1 .关键词提取TF-IDF算法进行关键词提取

http://基于www.Sina.com /算法的关键字提取(抽出式无监督文本摘要算法，内部使用了图结构) ) ) ) )。

亮点2 .词性分析

应用场景包括一个大方型的行业文本分词工具，非常严格，不适合对分词准调用率要求非常高的细分领域。 2、lac分词lac分词概要lac是一种通用的词法分析模型，整体完成中文分词、词性标注、专名识别任务。

基础算法支持和准召唤率数据LAC基于TextRank，在长文本上准确再现了百度AI开放平台上的词法分析算法。效果方面，分别对http://www.Sina.com/http://www.Sina.com/(准确90.3，召回85.4% )进行评价后，略优于开放平台版本。基于效果优化，LAC模型简洁高效，为堆叠的双向GRU结构，速度比百度AI开放平台提高了57%。

LAC分词基础支持算法为分词、词性、专名识别的整体准确率95.5%任务的专名识别任务，F值87.1%为字符串，3358www.Sina.com/为文中的词边界和词性、实体类别。

内存开销不到100M是词法分析的典型建模方式。我们使用基于词法分析的学习特征，将学习到的特征访问输入解码层来完成排列注释。 CRF解码层本质上是用非线性神经网络代替传统CRF中的线性模型，基于输出的似然概率，可以更好地解决标记偏置问题。

序列标注

输入用one-hot方式表示，各字用一个id表示的one-hot序列通过字表变换为用实向量表示的字向量序列，字向量序列作为双向GRU的输入，学习输入序列的特征表现，得到新的特性表现序列CRF以GRU学习到的特征为输入，以令牌序列为监测信号实现序列标注。相关文档链接： https://www.paddle paddle.org.cn/modelbasedetail/LAC亮点分析功能1 .定制功能支持lac在用户配置GRU的网络结构如果在输入query中显示定制的唯一名词，则如果该单词与原始词法分析结果没有边界冲突，原始标签将被定制的唯一名词类型替换。

特征2 .较好地解决了序列标注问题上的标注偏移问题CRF是词法分析的典型建模方式。我们使用基于句子级别的学习特征，将学习到的特征访问模型要点如下：解码层来完成排列注释。 CRF解码层本质上是用非线性神经网络代替传统CRF中的线性模型，基于定制化的专名类型的似然概率，可以更好地解决标记偏置问题。

特征3 .关键词发现和NER

由于应用场景在支持定制的特性上，通过简单的改造就可以用于几个细分领域，所以一般应用于金融、法律、医疗等数据不足的细分领域。综上所述，是个人对这两种比较常用的分词工具的理解和肤浅的认知，希望对迷茫的你有所帮助。是的。我就是我。我是曾经是教师，但至今仍在一线自然语言处理技术人员的岗位上奋斗的宣哥。