java修改word嵌套表格,word中如何输入向量箭头

对于国内自然语言处理研究者来说，汉语向量语料库是一项高需求资源。最近，北京师范大学和人民大学的研究者试图开源“汉语单词向量语料库”来解决这个问题。该库包含在数十个不同领域的词汇(百度百科、维基百科、人民日报1947-2017、知乎、微博、文学、金融、古代汉语等)中训练的单词向量，涵盖各个领域，包含各种训练设定目前，该研究的论文《Analogical Reasoning on Chinese Morphological and Semantic Relations》已被ACL2018大会接受。

项目链接： https://github.com/embedding/Chinese-word-vectors

该项目提供使用不同特征(稀疏和密集)、上下文特征(单词、n-gram、字符等)和语料库训练的中文单词向量(嵌入)。在这里可以轻松获取具有不同属性的预训练向量，并将其用于各种下游任务。

此外，开发人员还为该工具提供了中文模拟推理数据集CA8及其评估工具包，用户可以评估自己的语言向量质量。

格式

此资源中的预训练语向量文件以文本格式存储。每一行都包含一个单词及其单词向量。每个值都用空格分隔。第一行记录元信息：第一个数字表示文件中单词的排序，第二个数字表示维大小。

除了密集的单词向量(在SGNS上训练)之外，这个项目还提供稀疏的向量(在PPMI上训练)。这些与liblinear格式相同。 “:”前面的数字表示维索引，“:”后面的数字表示值。

提前训练中文向量

基本设定

多领域词汇

汉语向量训练在不同特征、语境特征和语料库中。

这个项目提供了单词向量，因为大部分古汉语汉字都是独立成词的。

多个共现信息

开发者发表了不同共现(co-occurrence )统计数据上的词向量。目标和上下文向量在相关论文中一般称为输入和输出向量。

在本部分中，可以获取单词级别以上的任何语言单位向量。例如，汉字向量包含在词-汉字上下文向量中。所有向量在百度百科中使用SGNS训练。

特征

现有的词语表达方法一般分为密集型和稀疏型词语嵌入表达两种。 SGANS模型(word2vec工具包中的模型)和PPMI模型分别是这两个特征的典型情况。 SGNS模型通过浅层神经网络学习低维密集向量，也称为神经嵌入方法。 PMI模型是稀疏特征袋(bag-of-feature )的表达方法，采用正点序互信息(PPMI )对特征进行加权。

上下文特性

单词、n-gram、文字三个语境特征在单词嵌入文献中经常被使用。大多数词表达方法本质上是利用词-词共现统计，即把词用作语境特征(词特征)。在语言建模问题的启发下，开发者将n-gram的特征引入到了上下文中。单词对单词和单词对n-gram的共现统计都用于训练n-gram的特征。在中文中，文字，也就是汉字通常表示强烈的意思。因此，开发人员考虑使用单词-单词和单词-字符的共现统计来学习单词向量。字符级别的n-gram长度范围为1到4 (字符特征)。

除了单词、n-gram、文字和汉字以外，还有对单词向量属性产生重要影响的特征。例如，通过将整个文本用作上下文特征，可以将更多的主题信息引入词语嵌入向量中，并且通过将依赖性分析树用作上下文特征，可以将语法信息添加到词语向量中。本项目考虑了17种共现类型。

语料库

开发者为收集许多领域的语料库做了很多工作。所有文本数据都是通过删除html和xml标签进行预处理的。仅保留纯文本，并使用HanLP(v_1.5.3)拆分单词。语料库的详细情况如下。

所有的单词都包括在内，低频词也包括在内。

工具包

所有词向量都由ngram2vec工具包训练。 ngram2vec工具包是word2vec和快速文本工具包的超集，支持抽象的上下文特性和模型。

ngra m2 vec:https://github.com/zhezhaoa/ngra m2 vec/word2vec:https://github.com/SVN2github/word2vecfastttext:3359 githal

中文词性比标准

词向量的质量通常由类比问题任务来评价。在这个项目中，开发人员使用了两个基准进行评估。第一个是CA-translated，大部分是直接从英语标准翻译的。 CA-translated在许多中文嵌入式论文中广泛使用，但只包含三个语义问题和134个中文。相对而言，CA8是专门为中文设计的。它包括17813个类比问题，涵盖综合词法和语义的关联。 CA-translated、CA8及其详细信息位于testets文件夹中。

评估工具包

评估工具包位于evaluation文件夹中。

执行以下代码来评估密集向量：

$ python ana _ eval _ dense.py-v-AC A8/morphological.txt $ python ana _ eval _ dense.py-v-AC A8/semantic.TTT

执行以下代码来评估稀疏向量：

$ python ana _ eval _ sparse.py-v-AC A8/morphological.txt $ python ana _ eval _ sparse.py-v-AC A8/semantic .

参考文献

使用这些嵌入和CA8数据集时，请引用开发人员的论文：

沈丽，泽赵，仁汾湖，文泗里，桃刘，小永都，模拟语言学习资源共享语言语言语言语言语言语言语言学习语言