首页 > 编程知识 正文

ngram 分词,基于ngram的分词方法

时间:2023-05-03 08:42:28 阅读:232816 作者:1117

二元语法与中文分词 语言模型

模型指的是对食物的数学抽象,语言模型指的是对语言现象的数学抽象。
语言模型的构建需要语料库的支撑
语料库建设并不是高不可攀的工程。
手动标注微型语料库

问题:常识告诉我们,一本书中几乎没有两个完全一样的句子 并且 试验中实际遇到的句子大部分都在语料库之外
这意味着它们的概率都将被标记为0 ???
解决办法:
二元语法 或(n元语法)
平滑策略(劫富济贫的策略)

语言模型 - 训练

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。