首页 > 编程知识 正文

gensim训练词向量,负样本采样

时间:2023-05-06 19:48:04 阅读:9565 作者:4002

skip-gram算法知道中心词,预测周围的n词。 在此方法中,计算Loss的方法如下:

根据这个p有对应的丢失。 例如,考虑到中心词周围的四个词,它是四个loss的总和。

计算这样的loss时,分母必须考虑同义词词典中的所有词。 如果一个词汇有数万个词的话,这个计算就太复杂了。因此用到负采样的办法简化。

具体而言,随机抽样k词,使中心词尽量不与这个k词相似。

那么,这个随机抽样的词有可能被周围的n个词抽样吗? a :是的,但不影响效果。 因为词汇量大,窗户小。

附上小火炉手绘的印象~

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。