首页 > 编程知识 正文

lda主题模型示例,Python中的新闻分类建立模型

时间:2023-05-06 08:16:01 阅读:164952 作者:1438

VSM (向量空间模型)是信息检索领域中最经典的分析模型之一,利用VSM对短文本进行建模。 即,将各个短文本表示为向量,将向量的值用TF-TDF表示。 给出一些符号定义。 短文本集SD={sd1,sd2,sdM},m为短文本总数,同义词词典V={V1,V2,VN},n为词汇量。 短文本sdiSD的向量表示为v(I )=) w ) I ) 1,w ) I ) 2,w ) I ) n ),其中w ) I ) k是词vkV在sdi中的权重,通常用TF-IDF表示

在此,tfki表示sdi中出现vk的次数,dfk表示SD中包含vk的短文本的总数。 然后,可以利用余弦距离计算两个向量的值,用余弦距离表示两个文本的相似度,值越大,两个文本越相似,计算公式如下。

由于短文本长度短、表意不明性、特征稀疏性等问题,不能用VSM完全模拟短文本中存在的问题。 针对VSM存在数据空间稀疏、无法有效挖掘语义特性等问题,将LDA模型应用于文本相似度计算。 LDA模型将VSM的文本向量表示映射为主题空间的向量表示,不仅可以有效地解决数据的降维,而且可以有效地解决一词多义和一义多语的问题。

LDA模型的基本思想是将文档作为主题概率分布来记述,进而将主题作为单词项目概率分布来记述。 LDA模型为3层Bayes结构,其LDA图模型如下图所示。

LDA模型生成过程可以描述如下:

)文档d中的词项总数Nd服从泊松分布。 其参数为:nd~poisson()

)2)针对每个文档(1,2,|d|),概率性地生成其主题分布)d(Dirichlet ));

)3)对于每个主题(z )、2、k ),概率性地生成其词项分布)k(Dirichlet ));

)4)关于文档d中的各单词wn的生成过程,其中n{ 1,2,2,Nd}为:

1 )根据主题分布d生成文档d单词项目wn的主题) zd,n~multionmial(d );

2 )根据词项分布zd,n生成选择的主题词项) wd,n~multionmial )zd,n )。

基于LDA主题模型的短文本分类算法

具体步骤总结如下。

输入: LDA模型语料库、KNN分类语料库

输出:要分类的文本的分类结果

(1)在文本语料库中训练LDA模型,推断KNN训练和测试文本集的主题分布

(2)选择特征词,修正主题分布

)3)根据公式

计算主题的相似度

)4)采用KNN分类,基于以下公式进行范畴判定

引文来源:基于LDA主题模型的短文本分类,计算机工程与设计,2016

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。