lda主题模型示例,Python中的新闻分类建立模型

VSM (向量空间模型)是信息检索领域中最经典的分析模型之一，利用VSM对短文本进行建模。即，将各个短文本表示为向量，将向量的值用TF-TDF表示。给出一些符号定义。短文本集SD={sd1，sd2，sdM}，m为短文本总数，同义词词典V={V1，V2，VN}，n为词汇量。短文本sdiSD的向量表示为v(I )=) w ) I ) 1，w ) I ) 2，w ) I ) n )，其中w ) I ) k是词vkV在sdi中的权重，通常用TF-IDF表示

在此，tfki表示sdi中出现vk的次数，dfk表示SD中包含vk的短文本的总数。然后，可以利用余弦距离计算两个向量的值，用余弦距离表示两个文本的相似度，值越大，两个文本越相似，计算公式如下。

由于短文本长度短、表意不明性、特征稀疏性等问题，不能用VSM完全模拟短文本中存在的问题。针对VSM存在数据空间稀疏、无法有效挖掘语义特性等问题，将LDA模型应用于文本相似度计算。 LDA模型将VSM的文本向量表示映射为主题空间的向量表示，不仅可以有效地解决数据的降维，而且可以有效地解决一词多义和一义多语的问题。

LDA模型的基本思想是将文档作为主题概率分布来记述，进而将主题作为单词项目概率分布来记述。 LDA模型为3层Bayes结构，其LDA图模型如下图所示。

LDA模型生成过程可以描述如下：

)文档d中的词项总数Nd服从泊松分布。其参数为:nd~poisson()

)2)针对每个文档(1，2，|d|)，概率性地生成其主题分布)d(Dirichlet ))；

)3)对于每个主题(z )、2、k )，概率性地生成其词项分布)k(Dirichlet ))；

)4)关于文档d中的各单词wn的生成过程，其中n{ 1，2，2，Nd}为：

1 )根据主题分布d生成文档d单词项目wn的主题) zd，n~multionmial(d )；

2 )根据词项分布zd，n生成选择的主题词项) wd，n~multionmial )zd，n )。

基于LDA主题模型的短文本分类算法

具体步骤总结如下。

输入： LDA模型语料库、KNN分类语料库

输出：要分类的文本的分类结果

(1)在文本语料库中训练LDA模型，推断KNN训练和测试文本集的主题分布

(2)选择特征词，修正主题分布

)3)根据公式

计算主题的相似度

)4)采用KNN分类，基于以下公式进行范畴判定

引文来源：基于LDA主题模型的短文本分类，计算机工程与设计，2016