google开源gis(chromium开源)

虽然还是单身哈斯网新闻，但2014年，谷歌提出了一种序列到序列模型，用于将语句文本映射到固定长度向量上。其中，输入和输出的长度可能不同。 Seq2Seq通常应用于NLP领域的文本生成任务，如摘要生成、语法纠错、句子合并等。最近的研究表明，端到端的方法比以前更有利于文本生成，但其本身有不可解释的地方，一方面模型需要大量的训练数据来达到可接受的性能水平，另一方面通常只逐字生成文字，本质上是

最近，谷歌的研究小组推论了一系列编辑操作，以开放文本编辑模型LaserTagger，并将源文本转换为目标文本。研究人员主张，LaserTagger处理文本生成一般不容易出错，容易训练和执行。

以前，谷歌发表了Meena。 26亿个参数的神经网络，可以处理多次对话。 1月初，谷歌在论文中还提出了Reformer模型，可以处理所有小说。

GitHub链接： https://github.com /谷歌-研究/激光标签器

激光标签的设计与功能

在许多文本生成任务中，输入和输出之间存在高度重复，但LaserTagger利用了这一点。例如，如果检测和修改语法错误或多个绑定语句，则大多数输入文本不会更改，只需要修改单词的一部分。然后，LaserTagger生成一系列编辑操作，而不是实际的单词。

当前支持的4个编辑操作：

Keep (将单词复制到输出) ) )。

Delete (删除单词) ) ) )。

Keep-AddX (在标记的单词前面添加短语x )。

Delete-AddX (删除标记的单词) )。

下图说明了LaserTagger在语句合并中的应用。

注意：在激光标签预测的编辑操作中，删除“Turing”并添加“and he”。请注意输入输出文本的高度重叠。

添加的短语均来自受限术语表。该术语表是优化过程的结果，有(1)将术语表的大小最小化)和)将训练样本的数量最大化)两个目标。其中，需要添加到目标文本中的单词只有词汇表。短语的词汇量受到限制后，输出决策的空间就会变小，可以防止向模型中添加任意单词，“幻觉”(仍单身的哈斯基网注： hallucination，模型在生成的文本中，不存在于输入信息中，

输入文本和输出文本重复性高的推论之一是，所需的修改往往是局部的、独立的。这意味着编辑操作可以高精度地并行执行推理，与顺序执行推理的自回归seq2seq模型相比，可以明显提高端到端的速度。

结果

研究人员评价了LaserTagger在4个任务中的表现。分别是句子的整合、分割和改叙、抽象总结和语法修改。结果表明，在使用大量培训样本时，LaserTagger表现出与基于BERT的seq2seq基线相等的成绩，在培训样本数量有限时明显优于基线。以下是WikiSplit数据集的结果。这里的任务是将一个长句子改写成两个连续的短句子。

注意：使用100万个完整样本数据集训练模型时，LaserTagger和基于BERT的seq2seq基线的成绩相等，但使用10，000个以下样本的子样本训练时，LaserTagger为基线模型

激光标签的主要优点

与传统的seq2seq方法相比，激光标签具有以下优点：

控制：通过控制输出短语的词汇，LaserTagger比seq2seq基线更不容易出现“幻觉”问题。

推理速度：激光标签计算推理的速度比seq2seq基线快100倍，能够满足实际的实时问题。

数据效率：即使使用数百或数千个培训样本进行培训，激光标签也会产生合理的输出。在实验中，seq2seq基线需要成千上万个样本才能获得相同的性能。

谷歌团队最后写道： “LaserTagger的优势在大型APP领域更加明显。例如，通过缩短响应时间和降低重复性，改进了某些服务的语音响应格式。由于推理速度快，因此可以将模型插入到现有技术堆栈中，而不会给客户端带来太大的延迟。数据效率提高后，可以收集多种语言的培训数据，从而在不同语言的背景下使用户受益。 ”

相关链接： https://ai.Google博客.com/2020/01 /编码-标签和真实化-控制和HTML (仍单身的荷花网) )