首页 > 编程知识 正文

google开源gis(chromium开源)

时间:2023-05-04 15:05:24 阅读:93387 作者:4534

虽然还是单身哈斯网新闻,但2014年,谷歌提出了一种序列到序列模型,用于将语句文本映射到固定长度向量上。 其中,输入和输出的长度可能不同。 Seq2Seq通常应用于NLP领域的文本生成任务,如摘要生成、语法纠错、句子合并等。 最近的研究表明,端到端的方法比以前更有利于文本生成,但其本身有不可解释的地方,一方面模型需要大量的训练数据来达到可接受的性能水平,另一方面通常只逐字生成文字,本质上是

最近,谷歌的研究小组推论了一系列编辑操作,以开放文本编辑模型LaserTagger,并将源文本转换为目标文本。 研究人员主张,LaserTagger处理文本生成一般不容易出错,容易训练和执行。

以前,谷歌发表了Meena。 26亿个参数的神经网络,可以处理多次对话。 1月初,谷歌在论文中还提出了Reformer模型,可以处理所有小说。

GitHub链接: https://github.com /谷歌-研究/激光标签器

激光标签的设计与功能

在许多文本生成任务中,输入和输出之间存在高度重复,但LaserTagger利用了这一点。 例如,如果检测和修改语法错误或多个绑定语句,则大多数输入文本不会更改,只需要修改单词的一部分。 然后,LaserTagger生成一系列编辑操作,而不是实际的单词。

当前支持的4个编辑操作:

Keep (将单词复制到输出) ) )。

Delete (删除单词) ) ) )。

Keep-AddX (在标记的单词前面添加短语x )。

Delete-AddX (删除标记的单词) )。

下图说明了LaserTagger在语句合并中的应用。

注意:在激光标签预测的编辑操作中,删除“Turing”并添加“and he”。 请注意输入输出文本的高度重叠。

添加的短语均来自受限术语表。 该术语表是优化过程的结果,有(1)将术语表的大小最小化)和)将训练样本的数量最大化)两个目标。 其中,需要添加到目标文本中的单词只有词汇表。 短语的词汇量受到限制后,输出决策的空间就会变小,可以防止向模型中添加任意单词,“幻觉”(仍单身的哈斯基网注: hallucination,模型在生成的文本中,不存在于输入信息中,

输入文本和输出文本重复性高的推论之一是,所需的修改往往是局部的、独立的。 这意味着编辑操作可以高精度地并行执行推理,与顺序执行推理的自回归seq2seq模型相比,可以明显提高端到端的速度。

结果

研究人员评价了LaserTagger在4个任务中的表现。 分别是句子的整合、分割和改叙、抽象总结和语法修改。 结果表明,在使用大量培训样本时,LaserTagger表现出与基于BERT的seq2seq基线相等的成绩,在培训样本数量有限时明显优于基线。 以下是WikiSplit数据集的结果。 这里的任务是将一个长句子改写成两个连续的短句子。

注意:使用100万个完整样本数据集训练模型时,LaserTagger和基于BERT的seq2seq基线的成绩相等,但使用10,000个以下样本的子样本训练时,LaserTagger为基线模型

激光标签的主要优点

与传统的seq2seq方法相比,激光标签具有以下优点:

控制:通过控制输出短语的词汇,LaserTagger比seq2seq基线更不容易出现“幻觉”问题。

推理速度:激光标签计算推理的速度比seq2seq基线快100倍,能够满足实际的实时问题。

数据效率:即使使用数百或数千个培训样本进行培训,激光标签也会产生合理的输出。 在实验中,seq2seq基线需要成千上万个样本才能获得相同的性能。

谷歌团队最后写道: “LaserTagger的优势在大型APP领域更加明显。 例如,通过缩短响应时间和降低重复性,改进了某些服务的语音响应格式。 由于推理速度快,因此可以将模型插入到现有技术堆栈中,而不会给客户端带来太大的延迟。 数据效率提高后,可以收集多种语言的培训数据,从而在不同语言的背景下使用户受益。 ”

相关链接: https://ai.Google博客.com/2020/01 /编码-标签和真实化-控制和HTML (仍单身的荷花网) )

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。