主题模型概述LDA主题模型的主要作用是在知道文章和词汇的情况下,颠倒文章的主题。 一般的主题模型有plsa模型、LDA主题模型、BTM模型。 其中,LDA模型和BTM模型都是基于plsa模型发展起来的,LDA模型是在plsa模型的基础上加入贝叶斯框架,BTM模型是词对{word_1,word-2} 相对于LDA模型,BTM模型的优点是相对于短文本具有更好的学习能力。 贝叶斯框架贝叶斯概率论和频率派概率论是概率论中两个不同的经典理论。 贝叶斯学派认为世界上不存在所谓的“随机事件”。 他之所以不能确定发生的结果,是因为我们自身知识的局限性。 简单地说,贝叶斯认为,在某些事情发生之前,我们把它称为先验知识(先验分布),之后通过继续实验,收集新的证据,这些证据成为样本数据,最后我们根据得到的样本数据得到的知识称为事后知识)事后分布) LDA模型。 目前关于LDA模型的文章也有很多,但涉及模型本身的知识点太多了,让我们相对比较一下本文忽略一些比较简单的数学知识,就LDA模型中的一些重要难点进行介绍。
求解LDA模型的关键是求解其后验概率,其后验概率的公式如下。
关于以上公式说明以下5点。
注:以上内容引用的是https://blog.csdn.net/l _ ear/article/details/97042751部分
其中,matlab代码如下:
(alpha=ones (1,l ) ) 50/L 1 );
beta=ones (1,v ) 1.01;
z=Zeros(m,v );
for m=1:M
forn=1:w(m )
z(m,n )=randperm(L,1 );
N1(z ) m,n ),n )=N1 ) z ) m,n ),n ) 1;
N2(M,z ) m,n ) )=N2 ) m,Z(M,n ) ) 1;
结束
结束
iter_time=1;
while iter_timestep
form=1:length(w ) )
forn=1:w(m )
N2(M,z ) m,n ) )=N2 ) m,z ) m,n ) )-1;
N1(z ) m,n ),n )=N1 ) z(m,n ),n )-1;
for k=1:L
p_back(k )=[(N1 ) k,n ) beta (n )-1 )/sum (n1 ) k, ) beta )][(N2 ) m,k ) alpha )-1]
结束
ifsum(p_back )==0
p_back=Ones(1,l ) )1/L );
else
p_back=p_back/sum(p_back );
结束
k=randsrc (1,1,[1:18; p_back];
ifz(m,n ) )=k
z(m,n )=k;
结束
N2(M,z ) m,n ) )=N2 ) m,k ) 1;
N1(z ) m,n ),n )=N1 ) k,n ) 1;
iter_time=iter_time 1;
结束
结束
结束
theta=Zeros(m,l );
phi=Zeros(L,v );
for m=1:M
for k=1:L
theta(m,k )=(N2 ) m,k ) alpha ) k ) )/) sum ) N2 ) m, ) alpha );
结束
结束
for k=1:L
for t=1:V
phi(k,t )=(N1 ) k,t ) beta ) )/) sum(N1 ) k, ) beta ) );
结束
结束
结束
其中,l表示主题的数量,代码已修改,应该是正确的,但实际实践中需要对数据进行预处理。