Stepwise Extractive Summarization and Planning with Structured Transformers

论文链接

Stepwise Extractive Summarization and Planning with Structured Transformers Abstract1. Introduction2.Related work3. Problem: Stepwise Content Extraction4 Stepwise HiBERT5. Stepwise ETCSum

Abstract

本文提出了一个使用结构化的 transformer—HiBERT和Extended transformer来做摘要抽取的分布式方法。通过将之前生成的摘要作为辅助子结构注入到结构化的transformer中，我们可以逐步实现摘要。本模型不仅对长文本的输入有效，并且也不依赖于某些特定任务的结构，这使得该模型可以在不同的任务上通用。当对CNN/DailyMail抽取的摘要进行评估时，在没有冗余感知建模或语句过滤的情况下，分布式模型使用Rouge进行评估时，获得了SOTA。

1. Introduction

提取文档摘要是通过识别文档中最重要的句子并拼接在一起来生成摘要。近年来，这项任务已经变得非常成熟，这主要归功于深度神经网络的发展。目前最先进的摘要抽取方法是使用transformer来学习句子向量表示，并对句子进行排序。然后将得分最高的句子组合起来，生成文档的摘要。

本文提出了一种结构化—transformer，该模型是以编码器为核心的分布式方法来进行摘要抽取。结构化—transformer是基于transformer的架构，它可以灵活地对输入的某种形式的结构建模，例如，分层文档结构。本文主要对这两种结构进行研究，分别是HiBERT和Extended Transformers Construction(ETC)。通过将之前的摘要内容作为辅助子结构注入结构化—transformer中，我们可以实现逐步的摘要。然后，模型就可以全面地学习摘要中体现的任何文档级相关属性，比如显著性、冗余性和排序。这与其他针对于某些特定任务的方法不同，并且打破了transformer的二次注意力机制。使它们更高效并能够处理更长的输入，而无需将输入截断为512个tokens。

本文主要贡献如下:

首次使用ETC (Ainslie et al.， 2020)用于摘要的抽取，因为其灵活性可以更好对长文本和结构化的输入进行建模。提出了两个结构化的transformer，HiBERT和ETC，使得模型能够对摘要抽取进行分布式建模。证明本模型是通用的，可以适用于文档摘要生成或表格到文本的生成。通过实验强调了逐步建模的有效性，特别是逐步建模ETC，并为这两个任务建立了一个新的标准。 2.Related work Redundency
传统的摘要模型通常在对句子进行评分之后，再使用一个句子选择器来处理冗余。与这些方法相比，我们的模型并不知道冗余。相反，它们通过注入以前生成的摘要表示来隐式地建模冗余。因此，本模型不是针对于某些特定文本的，而是可以应用于不同的任务。Partial Summary Representations
在摘要生成的方法中，对生成的部分摘要研究相对于较少。我们的模型首次使用带有结构化–transformer摘要表示方法来进行摘要的抽取。我们的模型学会了在没有任何人工挑选特征的情况下做出了对于下一个句子的预测。Long-form Summarization
众所周知，选择更好的内容，有利于摘要抽取器生成流畅而且内容丰富的摘要。在生成长摘要时或总结多个文档时，显得尤为重要。本文探索了使用结构化—transformer更好地对长文本进行编码。 3. Problem: Stepwise Content Extraction

输入D = {s1, s2, . . . , sn} ，表示有n个内容单元。目标是学习提取内容plan。S’m = {s’j|1 ≤ j ≤ m, s’j ∈ (D∪{Ø})}，其中长度为m。当s’m是一个空集(Ø)时表示该plan结束。我们将其表示为一个迭代排序问题。在第k步(1≤k≤m)给定输入D，以及之前选择的S’k-1，我们选择S’k∈(D∪{Ø})的概率P(s’k|S’k−1, D; θ)，θ为模型参数。然后将选中的内容添加到S’k-1来构造S’k。最好的 plan Sˆ 可以被定义为:

对于提取文档摘要，D ={s1, s2, . . . , sn}是一个包含多个句子的文档。我们的目标是学习一个 Sˆ使其能更好的总结文档D。本模型使用HiBERT和ETC。具体来说，我们使用“sentence”作为内容单元，使用“先前”或“部分生成的摘要”作为先前选择的内容计划。

4 Stepwise HiBERT

层次化编码使用LSTMs对输入进行建模。Zhang等人(2019)提出了两个堆叠的transformer编码器组成的HiBERT来进行摘要的抽取（如图一（中）所示）。一个是句子编码器，独立地为文档中的每个句子构建特征表示;一个是文档编码器，对句子编码器进行操作，为所有句子构建上下文表示。然后将这些上下文句子表征输入到分类器中，来预测文档中每个句子的显著性得分。与标注的transformer结构一样，编码器都有多个层，每个层都由一个多头自注意力机制和一个残差连接的前向反馈层组成和layer normalizations。对于Stepwise HiBERT，在k时刻，我们使用S’k-1修改了文档编码器。如图2(左)所示，它允许模型隐式地选择相对于之前生成的摘要的新句子。

Sentence and Document Encoders.
D ={s1, s2, . . . , sn}为一个文档，si ={wi1,wi2, . . . wi|si| }，其中wij是s中的token，si首先被映射到连续的空间Esi= {ei1,ei2， . . . ei|si|}中，其中eij=e(wij)+ptokenj，其中e(wij)和ptokenj分别是wij的token和positional embeddings。然后本模型基于句子的transformers编码器将Esi变为隐向量{hi1，hi2,. . . ，hi|si|}，其中hij是wij的隐藏层表征。我们取第一个隐藏的表示hi1表示句子si。

Stepwise Modeling
在第k步，让S’k = {s’1， s’2，. . .，s’k-1}为一个先前具有k-1个句子的抽取摘要，

5. Stepwise ETCSum