向量乘它的转置,设向量组a1a2a3线性无关

在Keras模型中使用预训练的单词向量

文章信息

在本教程中，您将掌握使用预训练单词向量和卷积神经网络解决文本分类问题的技能。此代码已上传到Github

作者： Francois Chollet

单词向量是什么？

“词向量”(词嵌入)是将词的语义映射到向量空间的自然语言处理技术。即，某个词是用特定的向量表示，向量间的距离(例如，任意两个向量间的L2归一化距离或更一般的余弦距离)被表现为某种程度的词间的语义关系。由这些向量形成的几何空间称为嵌入空间。

例如，“椰子”和“北极熊”是意义上完全不同的词，所以这些词的向量离合理的嵌入空间非常远。但是，“厨房”和“晚餐”是相关的词语，所以词语向量之间的距离相对变小。

理想情况下，在良好的嵌入空间中，从“厨房”向量到“晚餐”向量的“路径”向量会准确捕捉这两个概念之间的语义关系。在这种情况下，“路径”向量表示“发生地点”，因此“厨房”向量-“晚餐”向量(两个词的向量的差异)期待捕捉“发生地点”的意思关系。基本上，应该有发生晚饭的地方=厨房这样的向量等式。如果真的是这样的话，我们可以用这样的关系向量来回答几个问题。例如，应用这个意思会导致像“工作”这样的新向量。 “工作发生在哪里？ ”，应该得到工作发生的地方=办公室的意思的等式。

单词向量通过降维技术来表现文本数据集内单词的共现信息。方法包括神经网络(Word2vec )技术)或矩阵分解。

全局字向量

本文使用GloVe语向量。 GloVe是“globalvectorsforwordrepresentation”的缩写，是基于共现矩阵分解的词向量。本文使用的GloVe语向量是在2014年英语维基百科上训练出来的，有400k个不同的词，分别用100维向量表示。单击此下载(友谊提示，单词向量文件大小约为822米) )。

20新组数据集

本文使用的数据集是著名的“20 Newsgroup dataset”。此数据集有20种新闻文本数据，可实现此数据集的文本分类任务。数据集的说明和下载请参考这里。

不同种类的新闻包含许多不同的单词，意义上有很大的差异。一些新闻类别如下： comp.sys.ibm.pc.hardware

comp.graphics

comp.os.ms-windows.misc

comp.sys.mac.hardware

comp.windows.x

rec.autos

rec.motorcycles

rec.sport.baseball

rec.sport.hockey

实验方法

以下是如何解决分类问题的步骤，将所有新闻样本转换为单词索引列。单词索引是指为每个单词顺序分配一个整数ID。检查所有新闻文本，只留下最引用的20，000个词，每个新闻文本最多留下1，000个词。

生成单词向量矩阵。第I列表示单词索引为I的单词的单词向量。

将单词向量矩阵加载到Keras Embedding层中，并将该层的权重设置为不可重新训练(即，单词向量在后续的网络训练中不会发生更改)。

将1D卷积层连接到Keras Embedding层之后，并通过softmax完全连接输出新闻类别

数据预处理

首先，检查下面资料文件下的所有文件夹，获得不同类别的新闻和对应的类别标签。代码如下

texts=[ ] # listoftextsampleslabels _ index={ } # dictionarymappinglabelnametonumericidlabels=[ ] # listoflabelidsfornameinsorted (OS.list dir (text_data_dir ) ) :path=OS.path.join ) text _ data _ dir， name(ifOS.path.isdir(path ) :label_id=len ) labels_index ) labels _ index [ name ]=label _ idforfnameinatiox

然后，我们可以将新闻样本转换为用于神经网络训练的张量。要使用的Keras库是keras.preprocessing.text.tokenizer和keras.preprocessing.sequence.pad _ sequences。代码如下

from keras.prepro

cessing.text import Tokenizerfrom keras.preprocessing.sequence import pad_sequencestokenizer = Tokenizer(nb_words=MAX_NB_WORDS)tokenizer.fit_on_texts(texts)sequences = tokenizer.texts_to_sequences(texts)word_index = tokenizer.word_indexprint('Found %s unique tokens.' % len(word_index))data = pad_sequences(sequences, maxlen=MAX_SEQUENCE_LENGTH)labels = to_categorical(np.asarray(labels))print('Shape of data tensor:', data.shape)print('Shape of label tensor:', labels.shape)# split the data into a training set and a validation setindices = np.arange(data.shape[0])np.random.shuffle(indices)data = data[indices]labels = labels[indices]nb_validation_samples = int(VALIDATION_SPLIT * data.shape[0])x_train = data[:-nb_validation_samples]y_train = labels[:-nb_validation_samples]x_val = data[-nb_validation_samples:]y_val = labels[-nb_validation_samples:]

Embedding layer设置

接下来，我们从GloVe文件中解析出每个词和它所对应的词向量，并用字典的方式存储

embeddings_index = {}f = open(os.path.join(GLOVE_DIR, 'glove.6B.100d.txt'))for line in f: values = line.split() word = values[0] coefs = np.asarray(values[1:], dtype='float32') embeddings_index[word] = coefsf.close()print('Found %s word vectors.' % len(embeddings_index))

此时，我们可以根据得到的字典生成上文所定义的词向量矩阵

embedding_matrix = np.zeros((len(word_index) + 1, EMBEDDING_DIM))for word, i in word_index.items(): embedding_vector = embeddings_index.get(word) if embedding_vector is not None: # words not found in embedding index will be all-zeros. embedding_matrix[i] = embedding_vector

现在我们将这个词向量矩阵加载到Embedding层中，注意，我们设置trainable=False使得这个编码层不可再训练。

from keras.layers import Embeddingembedding_layer = Embedding(len(word_index) + 1, EMBEDDING_DIM, weights=[embedding_matrix], input_length=MAX_SEQUENCE_LENGTH, trainable=False)

一个Embedding层的输入应该是一系列的整数序列，比如一个2D的输入，它的shape值为(samples, indices)，也就是一个samples行，indeces列的矩阵。每一次的batch训练的输入应该被padded成相同大小(尽管Embedding层有能力处理不定长序列，如果你不指定数列长度这一参数)dim).所有的序列中的整数都将被对应的词向量矩阵中对应的列(也就是它的词向量)代替,比如序列[1,2]将被序列[词向量[1],词向量[2]]代替。这样，输入一个2D张量后，我们可以得到一个3D张量。

训练1D卷积

最后，我们可以使用一个小型的1D卷积解决这个新闻分类问题。

sequence_input = Input(shape=(MAX_SEQUENCE_LENGTH,), dtype='int32')embedded_sequences = embedding_layer(sequence_input)x = Conv1D(128, 5, activation='relu')(embedded_sequences)x = MaxPooling1D(5)(x)x = Conv1D(128, 5, activation='relu')(x)x = MaxPooling1D(5)(x)x = Conv1D(128, 5, activation='relu')(x)x = MaxPooling1D(35)(x) # global max poolingx = Flatten()(x)x = Dense(128, activation='relu')(x)preds = Dense(len(labels_index), activation='softmax')(x)model = Model(sequence_input, preds)model.compile(loss='categorical_crossentropy', optimizer='rmsprop', metrics=['acc'])# happy learning!model.fit(x_train, y_train, validation_data=(x_val, y_val), nb_epoch=2, batch_size=128)

在两次迭代之后，这个模型最后可以达到0.95的分类准确率(4:1分割训练和测试集合)。你可以利用正则方法(例如dropout)或在Embedding层上进行fine-tuning获得更高的准确率。

我们可以做一个对比实验，直接使用Keras自带的Embedding层训练词向量而不用GloVe向量。代码如下所示

embedding_layer = Embedding(len(word_index) + 1, EMBEDDING_DIM, input_length=MAX_SEQUENCE_LENGTH)

两次迭代之后，我们可以得到0.9的准确率。所以使用预训练的词向量作为特征是非常有效的。一般来说，在自然语言处理任务中，当样本数量非常少时，使用预训练的词向量是可行的(实际上，预训练的词向量引入了外部语义信息，往往对模型很有帮助)。

以下部分为译者添加

国内的合适的高山-Zhang用sklearn对同样的数据集做过基于传统机器学习算法的实验，请点击这里。同时Richard Socher等在提出GloVe词向量的那篇论文中指出GloVe词向量比word2vec的性能更好[1]。之后的研究表示word2vec和GloVe其实各有千秋，例如Schnabel等提出了用于测评词向量的各项指标，测评显示 word2vec在大部分测评指标优于GloVe和C&W词向量[2]。本文实现其实可以利用谷歌新闻的word2vec词向量再做一组测评实验。

参考文献

[1]: Pennington J, Socher R, Manning C D. Glove: Global Vectors for Word Representation[C]//EMNLP. 2014, 14: 1532-1543

[2]: Schnabel T, Labutov I, Mimno D, et al. Evaluation methods for unsupervised word embeddings[C]//Proc. of EMNLP. 2015