首页 > 编程知识 正文

java修改word嵌套表格,word中如何输入向量箭头

时间:2023-05-06 11:31:06 阅读:33179 作者:3726

对于国内自然语言处理研究者来说,汉语向量语料库是一项高需求资源。 最近,北京师范大学和人民大学的研究者试图开源“汉语单词向量语料库”来解决这个问题。 该库包含在数十个不同领域的词汇(百度百科、维基百科、人民日报1947-2017、知乎、微博、文学、金融、古代汉语等)中训练的单词向量,涵盖各个领域,包含各种训练设定目前,该研究的论文《Analogical Reasoning on Chinese Morphological and Semantic Relations》已被ACL2018大会接受。

项目链接: https://github.com/embedding/Chinese-word-vectors

该项目提供使用不同特征(稀疏和密集)、上下文特征(单词、n-gram、字符等)和语料库训练的中文单词向量(嵌入)。 在这里可以轻松获取具有不同属性的预训练向量,并将其用于各种下游任务。

此外,开发人员还为该工具提供了中文模拟推理数据集CA8及其评估工具包,用户可以评估自己的语言向量质量。

格式

此资源中的预训练语向量文件以文本格式存储。 每一行都包含一个单词及其单词向量。 每个值都用空格分隔。 第一行记录元信息:第一个数字表示文件中单词的排序,第二个数字表示维大小。

除了密集的单词向量(在SGNS上训练)之外,这个项目还提供稀疏的向量(在PPMI上训练)。 这些与liblinear格式相同。 “:”前面的数字表示维索引,“:”后面的数字表示值。

提前训练中文向量

基本设定

多领域词汇

汉语向量训练在不同特征、语境特征和语料库中。

这个项目提供了单词向量,因为大部分古汉语汉字都是独立成词的。

多个共现信息

开发者发表了不同共现(co-occurrence )统计数据上的词向量。 目标和上下文向量在相关论文中一般称为输入和输出向量。

在本部分中,可以获取单词级别以上的任何语言单位向量。 例如,汉字向量包含在词-汉字上下文向量中。 所有向量在百度百科中使用SGNS训练。

特征

现有的词语表达方法一般分为密集型和稀疏型词语嵌入表达两种。 SGANS模型(word2vec工具包中的模型)和PPMI模型分别是这两个特征的典型情况。 SGNS模型通过浅层神经网络学习低维密集向量,也称为神经嵌入方法。 PMI模型是稀疏特征袋(bag-of-feature )的表达方法,采用正点序互信息(PPMI )对特征进行加权。

上下文特性

单词、n-gram、文字三个语境特征在单词嵌入文献中经常被使用。 大多数词表达方法本质上是利用词-词共现统计,即把词用作语境特征(词特征)。 在语言建模问题的启发下,开发者将n-gram的特征引入到了上下文中。 单词对单词和单词对n-gram的共现统计都用于训练n-gram的特征。 在中文中,文字,也就是汉字通常表示强烈的意思。 因此,开发人员考虑使用单词-单词和单词-字符的共现统计来学习单词向量。 字符级别的n-gram长度范围为1到4 (字符特征)。

除了单词、n-gram、文字和汉字以外,还有对单词向量属性产生重要影响的特征。 例如,通过将整个文本用作上下文特征,可以将更多的主题信息引入词语嵌入向量中,并且通过将依赖性分析树用作上下文特征,可以将语法信息添加到词语向量中。 本项目考虑了17种共现类型。

语料库

开发者为收集许多领域的语料库做了很多工作。 所有文本数据都是通过删除html和xml标签进行预处理的。 仅保留纯文本,并使用HanLP(v_1.5.3)拆分单词。 语料库的详细情况如下。

所有的单词都包括在内,低频词也包括在内。

工具包

所有词向量都由ngram2vec工具包训练。 ngram2vec工具包是word2vec和快速文本工具包的超集,支持抽象的上下文特性和模型。

ngra m2 vec:https://github.com/zhezhaoa/ngra m2 vec/word2vec:https://github.com/SVN2github/word2vecfastttext:3359 githal

中文词性比标准

词向量的质量通常由类比问题任务来评价。 在这个项目中,开发人员使用了两个基准进行评估。 第一个是CA-translated,大部分是直接从英语标准翻译的。 CA-translated在许多中文嵌入式论文中广泛使用,但只包含三个语义问题和134个中文。 相对而言,CA8是专门为中文设计的。 它包括17813个类比问题,涵盖综合词法和语义的关联。 CA-translated、CA8及其详细信息位于testets文件夹中。

评估工具包

评估工具包位于evaluation文件夹中。

执行以下代码来评估密集向量:

$ python ana _ eval _ dense.py-v-AC A8/morphological.txt $ python ana _ eval _ dense.py-v-AC A8/semantic.TTT

执行以下代码来评估稀疏向量:

$ python ana _ eval _ sparse.py-v-AC A8/morphological.txt $ python ana _ eval _ sparse.py-v-AC A8/semantic .

参考文献

使用这些嵌入和CA8数据集时,请引用开发人员的论文:

沈丽,泽赵,仁汾湖,文泗里,桃刘,小永都,模拟语言学习资源共享语言语言语言语言语言语言语言学习语言

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。