word中如何输入向量,word2vec模型结构包括

最近在做序列标注项目的时候，关于Word Embedding和预训练语的向量，发现对这三者的概念不清楚，以前实习中使用的Word2Vec也忘了，所以在这里很容易就把三者之间的区别和联系谢谢你。

文章目录一、单词向量(一)概要)二)表达方法1.one-hot2. dristributedrepresentation二、预训练语向量(一)目的)二)与未使用的预训练语向量的区别三、word embedddd

一、词向量(一)缩略语向量)以一定长度的向量形式表示一个字/词。使用词向量的理由：将自然语言(Natural Language )转换为计算机能够识别的数字格式，进行机器学习等高级任务。 (二)表示方法1. One-Hot

俗称“独热码”，是一种以0/1表示语言，将自然语言转换为计算机能理解的向量形式的转换方法。这种编码方式可以唯一地表示所有单词/词。此one-hot向量的维度是所有不重复的单词/词词典，当前单词/词仅在某个维度中向量表示为1，其余维度均为0。例如：

[ '中国'，'美国'，'日本'，'美国' ]---[ 1，0，0，1，0 ]，[ 0，0，1，1，1，1，1，1，1，1 例如，“花”在同义词词典中的位置为8，“祖国”在同义词词典中的位置为12，则可以直接映射到one-hot向量中的“1”的特征：实现了数据离散化的但2 .分布式re presentation是一种低维密集词向量形式，与one-hot相反，通过词向量模型的训练，可以将各词映射为短词向量，并在词向量之间通过统计学方法计算相似度常见的测量方法有向量cos夹角、欧式距离、曼哈顿距离、信息熵、汉明距离等。例如：

单词可以表示为向量形式的单词向量的维度，例如[0.824、0.256、[0.824、0.271、0.592， ]。例如，50、100、128维特征。通过计算向量之间的距离和角度可以表示单词和单词之间的语义联系，向量的维数很低。矢量训练模式： Word2Vec、fastText、GloVe、BERT等。二、预训练词向量在训练数据较少的情况下，通过使用预训练词向量，可以将当前可解释或不可解释的预词信息嵌入词向量中，这些预知识对下游词向量训练任务特别是小数据集有用。预训练字向量的选择主要考虑两个因素：语料和维度

词汇选择必须与训练数据的文本类型相匹配。例如，英语对应英语预训练集，汉语对应汉语预训练集，新闻文本对应新闻文本预训练集。预训练单词向量的维度必须与定制单词向量的维度匹配。 (一)目的)通过训练词与词/词与词之间的关联性特征(语境语言结构)，应用于相似的语境特征，弥补训练数据不足以学习该语言结构的一般特征。

(二)与未使用的预训练语向量区分使用预训练语向量，表达具有该预训练语和词关系的语义信息；随机生成初始化词向量不能根据特定上下文单词的出现预测target词，也就是说，在训练数据中在其训练前集中存在上下文单词的情况下，在之后的神经网络训练后能够生成正确的tag，输入的权重值不需要用反向传播更新，否则梯度下降到最低点，需要继续更新权重参数才能找到最佳值。 (实际训练单词向量可以简化降斜率模型收敛的过程，个人理解)三、WordEmbedding (一)与WordEmbedding是单词映射关系，将单词/单词x映射到向量空间y 简单地说，Word Embedding是生成单词向量的专有名词。

例如，要将某个语句I have an apple映射为向量格式，首先创建与该语句对应的词典dic、[“I”、“have”、“an”、“apple”]，使每个单词对应词典id，然后单击

(二) Embedding方式的词嵌入方式与上述词向量生成方式一致，可以分为以下几类。

基于frequency的嵌入式

- TF-IDF

- Word Count :基于每个单词在词典中出现频率构建单词向量预定义嵌入式

- Word2Vec

- BERT等四、Word2Vec背景介绍： Word2Vec是谷歌2013年开发的获取单词向量的工具包。概述和作用：

-将自然语言转换为计算机能理解的向量格式的转换方法。

- Word2Vec可以根据一个词的上下文词信息计算该词的矢量值，使得矢量空间具有上下文、词、词的矢量

之间可以通过夹角和距离表征词语的联系。
- Word2Vec是一种Distributed Representation，生成的向量是低维且稠密的。模型训练：Word2Vec是一个简单的神经网络模型，通过输入one-hot词向量，进入神经网络中映射成为更稠密的词向量。通过神经网络训练得到每一个词语的权重，即向量化表示这个词语，生成词向量。Word2Vec有两个训练模型：CBOW（Continuous Bag-of-Words Model）和Skip-gram模型。
- CBOW：给定上下文预测target word。e.g.: (‘I’, ‘miss’, ‘target word’, ‘very’, ‘much’)
- Skip-gram：给定一个词预测上下文。e.g.: you→I miss you very much
数学原理：参考文献1对于Word2Vec的数学原理介绍较为清晰，可直接点击链接学习。下图是我自己整理的CBOW模型结构及计算方法，Skip-gram原理类似。Stanford CS224D：Deep Learning for NLP中详细解释了有关词向量及其训练方法
应用场景：将Word2Vec词向量作为文本特征进行文本分类。

参考文献如下，前人的经验就是我学习路上的奠基石！十分感谢！
参考文献1 Word2Vec数学原理参考书
参考文献2
参考文献3
参考文献4