ijcai(清华大学录取分数线2019)

目前，在自然语言处理任务中，文本摘要和情感分类大多是分别解决的。北京大学研究人员提出的分层端到端框架将这两个任务合并在一起，实现了优于各自任务的性能。这项研究的论文已经被IJCAI 2018会议接受。

文本摘要和情感分类是自然语言处理领域的两个重要任务。文本摘要的目的是生成具有原始文本要点的摘要。抽象式摘要(abstractive summarization )与从原始文本的现有词汇中选择子集来构建摘要的抽象式摘要(extractive summarization )进行比较，构建内部语义表达，利用自然语言生成技术制作摘要本研究主要关注抽象的文本摘要。情感分类是指给文本分配情感标签，以决定文本中的态度和意见。这也被称为意见挖掘(opinion mining )，是提取导出说话人的意见和态度。文本摘要和情感分类的目标是挖掘文本的主要思想。文本摘要是更具体地使用单词和句子来描述文本，而情感分类是使用标签来更抽象地总结文本。

现有的模型大多是为摘要而设计的，或者是为分类而设计的。对抽象文本摘要来说，最受欢迎的是序列到序列模型[Sutskever et al .2014；在Rush et al .2015]中，成长源文本的短摘要可以看作是长序列和短序列之间的映射。这个模型由编码器和解码器组成。编码器将源文本编码为隐式表示，解码器生成摘要。在最近的抽象摘要模型中，有从序列到序列模型的变化[Chopra et al .2016； 2017]年日本全国锦标赛。关于情感分类，许多最近的研究都表明神经网络体系结构[Kim，2014； Tang et al .2015] (例如LSTM和CNN )生成文本嵌入，使用多层感知器(MLP )从该嵌入中预测标签。

以前有过一些研究[ hole和takalikar，2013； Mane et al .2015]提出了同时获得摘要和感情标签的模型。但是，这些模型的特点是需要将摘要部分和情感分类部分分开训练，并且进行丰富的人工设计。另外，还有关于感情摘要的工作[Titov and McDonald，2008； Lerman et al .2009]的目标是从源文本中提取具有特定感情类别的句子。这些研究只侧重于摘要，不能提高情感分类的表达。

本研究探索了在端到端框架内，同时提高文本摘要和情感分类水平的第一步。提出了由摘要层和情感分类层组成的分层端到端模型。摘要层是将源文本压缩为短句，情感分类层是将文本进一步“归纳”为情感类别。由于这种层次结构在文本摘要和情感分类之间建立了密切的联系，这两个任务可以相互提高。通过摘要压缩文本后，情感分类器可以更容易地预测短文本的情感标签。此外，文本摘要还可以标记重要、有信息的词语，去除对预测情绪有害的冗长性和导致误解的信息。该情感分类对文本摘要提供了更重要的监控信号，可以引导摘要组件中源文本的情感倾向，提高短文本与源文本之间的一致性。

对亚马逊在线评论数据集中提出的模型进行了评估。实验结果表明，我们的模型在抽象总结和情感分类上都可以实现优于强标杆系统的表现。

本论文有以下贡献

我们将情感分类视为特定类型的摘要，使用统一的模型执行情感分类和文本摘要。

为了摘要和情感分类获得不同的文本特征，提出了多视角注意(multi-view attention )。

实验结果表明，我们模型的表达优于划分训练摘要和情感分类的强有力标准。

图1显示了模型的体系结构。我们的模型由文本编码器、摘要解码器和情感分类器三部分组成。文本编码器使用双向LSTM将源文本压缩到上下文存储器中。摘要解码器是单向的LSTM，查询上下文存储器，利用注意机制依次生成摘要向量和情感向量。然后，单词生成器利用其中的摘要向量生成摘要。收集所有时间步的情感向量，并输入到情感分类器中以预测情感标签。为了获取源文本的上下文信息，使用了highway机制，将上下文记忆作为分类器输入的一部分。因此，该分类器可以根据摘要解码器的情感矢量和文本编码器的上下文存储来预测标签。

图1 :我们的模型概要

表Amazon SNAP测试集中的模型和抽象摘要序列到序列的基准比较。这本测试集包括玩具游戏、体育室外和电影电视三个领域。 RG-1、RG-2、RG-L分别表示路径1、路径2、路径1。

9d994aba15d.png?from=pc">

表 2：我们的模型和情感分类的序列到序列基准在 Amazon SNAP 测试集上的比较。这个测试集包含三大领域：玩具&游戏、运动&户外、电影&电视。5-class 和 2-class 分别表示五类情感和二类情感分类的准确度。

表 4：多视角注意的可视化。上部分是情感视角注意的热图，下部分是摘要视角注意的热图。颜色更深表示注意分数更高。

论文：A Hierarchical End-to-End Model for Jointly Improving Text Summarization and Sentiment Classification

论文地址：https://arxiv.org/abs/1805.01089

摘要：文本摘要和情感分类的目标都是获取文本的主要思想，但层级不同。文本摘要是为了使用少量句子描述文本，而情感分类则可以被看作是一种特定类型的摘要——将文本「总结」成更加抽象的形式，即一种情感类别。基于这一思想，我们提出了一种分层式端到端模型，可用于联合学习文本摘要和情感分类，其中情感分类标签被当作文本摘要输出的更进一步「摘要」。因此，情感分类层被放置在文本摘要层之上，并衍生出了一种分层式结构。在亚马逊在线评论数据集上的实验结果表明我们的模型在抽象式摘要和情感分类上都能实现比强大的基准系统更优的表现。