首页 > 编程知识 正文

自然语言处理基本技术,nlp自然语言处理视频

时间:2023-05-06 00:44:03 阅读:110500 作者:1169

我刚和三快在线(美团)的算法老同学谈了一下他们现有分词工具效果不好的问题。 我们最终讨论的结果,要么无效,要么效果不好,只有不适合,毕竟要看每个分词工具中模型的基础训练数据成分构成。

本人日常工作中常用的分词工具1、jieba分词

2、lac分词

3、公司根据自己领域内的数据培训、封装的分词工具jimi分词,未对外公开。

今天重点谈谈前两个常见的分词工具1、jieba分词支持四种分词模式。精确模式

全模式扫描文中的每一个词,都很快,但无法解决歧义;

搜索引擎模式根据正确的模式,重新分割长单词,提高召回率,适用于搜索引擎的分词。

paddle模式利用PaddlePaddle深度学习框架,训练序列表示(双向GRU )网络模型实现分词。 也支持词性标注。

基础算法支持基于前缀词典实现高效的词图扫描,生成由文中汉字所有可能单词情况组成的有向无环图(DAG )

采用动态规划查找最大概率路径,找到了基于词数的最大分割组合

未登录词,采用基于汉字成语能力的HMM模型,采用Viterbi算法

对于其他基础API,建议基于千兆链接: https://github.com/fxs jy/jiebajieba分词亮点:亮点1 .关键词提取TF-IDF算法进行关键词提取

http://基于www.Sina.com /算法的关键字提取(抽出式无监督文本摘要算法,内部使用了图结构) ) ) ) )。

亮点2 .词性分析

应用场景包括一个大方型的行业文本分词工具,非常严格,不适合对分词准调用率要求非常高的细分领域。 2、lac分词lac分词概要lac是一种通用的词法分析模型,整体完成中文分词、词性标注、专名识别任务。

基础算法支持和准召唤率数据LAC基于TextRank,在长文本上准确再现了百度AI开放平台上的词法分析算法。 效果方面,分别对http://www.Sina.com/http://www.Sina.com/(准确90.3,召回85.4% )进行评价后,略优于开放平台版本。 基于效果优化,LAC模型简洁高效,为堆叠的双向GRU结构,速度比百度AI开放平台提高了57%。

LAC分词基础支持算法为分词、词性、专名识别的整体准确率95.5%任务的专名识别任务,F值87.1%为字符串,3358www.Sina.com/为文中的词边界和词性、实体类别。

内存开销不到100M是词法分析的典型建模方式。 我们使用基于词法分析的学习特征,将学习到的特征访问输入解码层来完成排列注释。 CRF解码层本质上是用非线性神经网络代替传统CRF中的线性模型,基于输出的似然概率,可以更好地解决标记偏置问题。

序列标注

输入用one-hot方式表示,各字用一个id表示的one-hot序列通过字表变换为用实向量表示的字向量序列,字向量序列作为双向GRU的输入,学习输入序列的特征表现,得到新的特性表现序列CRF以GRU学习到的特征为输入,以令牌序列为监测信号实现序列标注。 相关文档链接: https://www.paddle paddle.org.cn/modelbasedetail/LAC亮点分析功能1 .定制功能支持lac在用户配置GRU的网络结构如果在输入query中显示定制的唯一名词,则如果该单词与原始词法分析结果没有边界冲突,原始标签将被定制的唯一名词类型替换。

特征2 .较好地解决了序列标注问题上的标注偏移问题CRF是词法分析的典型建模方式。 我们使用基于句子级别的学习特征,将学习到的特征访问模型要点如下:解码层来完成排列注释。 CRF解码层本质上是用非线性神经网络代替传统CRF中的线性模型,基于定制化的专名类型的似然概率,可以更好地解决标记偏置问题。

特征3 .关键词发现和NER

由于应用场景在支持定制的特性上,通过简单的改造就可以用于几个细分领域,所以一般应用于金融、法律、医疗等数据不足的细分领域。 综上所述,是个人对这两种比较常用的分词工具的理解和肤浅的认知,希望对迷茫的你有所帮助。 是的。 我就是我。 我是曾经是教师,但至今仍在一线自然语言处理技术人员的岗位上奋斗的宣哥。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。