通俗易懂之词袋模型

简单实例：

假设有两句话：

第一句：I love HongKong.

第二句：I love China.

根据这两句话，构建一个词典：{I:1,love:2,HongKong:3,China:4}

根据句子中的单词在字典中是否出现用1/0表示（出现用1，不出现则用0表示），出现了的，还要看出现了多少次。

所以，上面两句话的二进制向量表示为：

第一句：1,1,1,0（因为在第一句话中，没有China，所以第四位是0）

第二句：1,1,0,1（因为在第二句话中，没有出现HongKong，所以第三位是0）

复杂一点实例：

假设有两句话：

第一句：I love HongKong and China.

第二句：I love China, so I love HongKong

现在构建的词典：{I:1 ,love:2, HongKong:3, and:4, China:5, so:6}

所以，上面两句话的二进制向量表示为：

第一句：1,1,1,1,1,0（第一句话没有出现so这个单词，所以最后一位是0）

第二句：2,2,1,0,1,1（第二句话中I和love都出现了2次，且没有出现and这个单词，所以前两位是2，第四位是0）

结语：

主要是要抓住是如何把词语转换为数字的，因为传入到神经网络进行训练的时候，只能是数值，所以很多时候会把文本向量化。这是其中的一种方式，目前最流行的是Word2Vec，也就是把词语转换为词向量。但是有时候阅读论文的时候，还是会碰到这个词袋模型，了解一下还是很有必要的。