skip-gram算法知道中心词,预测周围的n词。 在此方法中,计算Loss的方法如下:
根据这个p有对应的丢失。 例如,考虑到中心词周围的四个词,它是四个loss的总和。
计算这样的loss时,分母必须考虑同义词词典中的所有词。 如果一个词汇有数万个词的话,这个计算就太复杂了。因此用到负采样的办法简化。
具体而言,随机抽样k词,使中心词尽量不与这个k词相似。
那么,这个随机抽样的词有可能被周围的n个词抽样吗? a :是的,但不影响效果。 因为词汇量大,窗户小。
附上小火炉手绘的印象~