从隐藏层到输出的Softmax层的计算有哪些方法？

分层softmax负样本

层次softmax流程？

Huffmantree最大化对数似然函数输入层：是上下文词的词向量投影层：其和是简单的向量加法输出层：输出最有可能的word是霍夫曼树，作为每个节点选择一次的logistics选择过程的联立即似然函数针对各层变量求出偏导数，参考sgd

负采样流程？

统计各词的出现概率，每当舍弃词数过低的对话选择softmax的负样本时，一方面以从舍弃后的词典中选择负样本(选择需要参考出现概率) )利用负样本的输出分布模拟真实输出分布

word2vec两种方法各自的优势？

Mikolov的原论文为核心思想，另一方面CBOW的学习速度更快，skip -， CBOW的时间复杂度o ) v )

怎么衡量学到的embedding的好坏？

表示，从item2vec得到的词向量中随机抽取一部分，人工判断可信度。也就是说，人工判断各维item和标签item的关联度，判断是否合理、数组是否相关，将通过item2vec得到的词向量聚类或可视化的

word2vec和glove区别？

word2vec基于附近词共现， glove基于全文共现word2vec利用负采样或分层softmax加速，相对较早的是glove利用全局共现矩阵。占内存资源更多的word2vec是“先验”的模型，而GloVe没有考虑“基于count-based”的模型

你觉得word2vec有哪些问题？

中文依存分词结果的语序好坏的寂寞馒头语，从没有正则化处理的

详述LDA原理？

大胆的馒头分布中采样生成文件I的主题分布多项式分布的共轭分布是大胆的馒头分布二元分布的共轭分布是从beta分布中采样生成的文件I的第j个单词的主题是从大胆的yatter分布中提取生成与主题对应的单词分布，生成单词的多项式分布用EM法修改单词-主题矩阵主题-文档矩阵收敛到

LDA中的主题矩阵如何计算？词分布矩阵如何计算？

之前这个问题很难说清楚，但一般都是揪着细节提问，不在意你的公式是否完全一致。这部分是LDA的核心，是考验nlp工程师的最基础、最基础的知识点

吉布斯抽样首先对每个单词随机地做了主题。多项式分布的共轭分布是大胆的bighman分布，因此可以根据大胆的bighman分布先验分布结合各个单词实际主题满足的多项式分布得到事后大胆的bighman分布，从而积分得到文档的主题条件分布。由此，在各文章主题和单词的结合概率分布中出现结合概率分布，去除单词wi后，根据带条件的概率分布，使用坐标交替的吉布斯采样方法，在与词对应的稳态矩阵和词对应的主题收敛后，将与文章的词对应的主题统计单词对应的主题，得到不同主题中的单词分布后，经常会出现吉布斯采样怎么办的问题。 (基于MCMC思想，面向多维特征优化一维特征，在固定其他维度的情况下，为了满足致密的稳定性，提高样本集的生成速度而进行坐标变换) )在MCMC中蒙特卡罗方法是什么？通常用于求概率密度的积分用已知分布评价未知分布reject-acpect过程中马尔可夫链的收敛性吗？不是周期性的，不能出现死循环连接性。断点MCMC中什么是马尔可夫链采样过程？首先转移矩阵p通过n次迭代得到收敛于不变的定常矩阵，然后根据定常矩阵后的条件概率p(x/XT )得到定常分布的样本集(xn 1，xn 2 . )给出的定常矩阵如何得到概率分布样本集？ M-C对任意的过渡矩阵q进行采样，将(I ) p(I，j )=) j ) j，I )设为已知，将) I，j ) a ) I，j )=) j ) q，I ) a ) j，j，j XT1 . )表示我们的分布样本集的M-H样本的左右同时缩放，更新了a ) I，j )的计算公式，显示了收敛速度Gibbs样本相同。用某个特征对差异固定的n1个特征进行采样，坐标变换样本是什么？平面上的任意两点满足精细平稳的条件(a ) p ) a-b )=) b

)P(B->A)从条件概率分布P(x2|x(t)1)中采样得到样本x(t+1)2从条件概率分布P(x1|x(t+1)2)中采样得到样本x(t+1)1其为一对样本，有点像Lasso回归中的固定n-1维特征求一维特征求极值的思路变分推断EM算法整体上过程是，LDA中存在隐藏变量主题分布，词分布，实际主题，和模型超参alpha，beta，需要E步求出隐藏变量基于条件概率的期望，在M步最大化这个期望，从而得到alpha，beta变分推断在于隐藏变量没法直接求，用三个独立分布的变分分步去拟合三个隐藏变量的条件分布实际去做的时候，用的是kl散度衡量分布之间的相似度，最小化KL散度及相对熵EM过程E：最小化相对熵，偏导为0得到变分参数M：固定变分参数，梯度下降法，隐形的老虎法得到alpha和beta的值

LDA的共轭分布解释下?

以多项式分布-大胆的大侠分布为例，我们的多项式分布θ先验分布π(θ)，及加了多项式分布的样本信息x后的后验分布π(θ/x)都满足大胆的大侠分布，则称大胆的大侠分布为LDA场景下多项式分布的共轭分布

PLSA和LDA的区别?

LDA是加了大胆的大侠先验的PLSAPLSA的p(z/d)和p(w/z)都是直接EM估计的，而LDA都是通过大胆的大侠给出的多项式分布参数估计出来的LDA是yjfdtn思想，PLSA是MLE

怎么确定LDA的topic个数

对文档d属于哪个topic有多不确定，这个不确定程度就是Perplexity多次尝试，调优perplexity-topic number曲线困惑度越小，越容易过拟合某个词属于某个主题的困惑度：，某个文章的困惑度即为词的连乘：

LDA和Word2Vec区别？LDA和Doc2Vec区别？

LDA比较是doc，word2vec是词LDA是生成的每篇文章对k个主题对概率分布，Word2Vec生成的是每个词的特征表示LDA的文章之间的联系是主题，Word2Vec的词之间的联系是词本身的信息LDA依赖的是doc和word共现得到的结果，Word2Vec依赖的是文本上下文得到的结果

LDA算法里面Dirichlet分布的两个参数alpha和beta怎样确定？trick?

通常alpha为1/k，k为类别数，beta一般为0.01alpha越小，文档属于某一个主题的概率很大，接近于1，属于其他主题的概率就很小，文章的主题比较明确beta同理，但是一般不会刻意去改beta，主要是压缩alpha到一定小的程度chucksize大一些更新的过程比较平稳，收敛更加平稳迭代次数一般不超过2000次，200万doc大约在2300次收敛

nlp自然语言处理算法(自然语言处理阅读理解预测算法)