首页 > 编程知识 正文

textrank文本摘要,nlp关键字提取

时间:2023-05-03 14:19:25 阅读:105737 作者:4197

《原始论文:Rouge: A package for automatic evaluation of summaries》

规则(recall-orientedunderstudyforgistingevaluation )是一组评估自动文摘和机器翻译的指标。 通过将自动生成的摘要或翻译与一组参考摘要(通常是人工生成的)进行比较计算来计算分数,并测量自动生成的摘要或翻译与参考摘要之间的“相似性”。

一. rouge-n(rouge-1、Rouge-2 ) 1、公式

分母是参考摘要(人工摘要/标准答案)中的n元总数,分子是模型生成的摘要和参考摘要共有的n元个数,即召回率(Recall )。

Rouge-N:是相应的Rouge-1 : 1-gram、Rouge-2: 2-gram和Rouge-3: 3-gram。

2、自动汇总Y Y Y )一般为模型生成) :

the cat was found under the bed参考摘要,XXX (金牌标准,人工生成) :

在the cat was under the bed中,根据模型生成的summary的1-gram、2-gram如下所示,N-gram如下所示。

#1- gram reference1- gram2- gram reference2- gram1thethecatthecat2catcatwascatwas3waswasfoundwasunder4founderfoor eunderter 5rouge-1(x,y )=6=1.0(text(rouge-1 ) ) x,y ) ) cfRAC66=1.0rouge (实际上分母也可以评估摘要,但在准确率和召回率之间,召回率Recall 另外,这也与上面的ROUGN-N公式相同)

Rouge-2 (X(x,y )=45=0.8(text ) rouge-2 ) (x,y ) ) cfRAC45=0.8rouge-2 ) x,y )=54=0.8

Rouge-N的优点:直观简洁,能反映语序。

Rouge-N的缺点:区分度不高,在N3的情况下,Rouge-N的值通常较小。

应用场景:

ROUGE-1 )简短摘要评估、多文档摘要(禁用单词条件); ROUGE-2:单文档汇总、多文档汇总(禁用单词条件); 二. Rouge-L是LCS(longestcommonsubsequence,最长公共子序列) )的首字母缩写。 因为Rouge-L使用的是最长公共子序列。 Rouge-L的计算方法如下图所示。

其中:

LCS(X

, Y ) LCS(X,Y) LCS(X,Y)是 X X X 和 沉静的高跟鞋 的最长公共子序列的长度; m m m 和 n n n 分别表示参考摘要(人工生成)和自动摘要(模型生成)的长度(一般就是所含词的个数); R l c s R_{lcs} Rlcs​、 P l c s P_{lcs} Plcs​ ​分别表示召回率和准确率。 F l c s F_{lcs} Flcs​ ​即是我们所说的Rouge-L。

在DUC中, β β β 被设置为一个很大的数,所以Rouge-L几乎只考虑 R l c s R_{lcs} Rlcs​​,与上面所说的一般只考虑召回率对应。

优点:使用LCS的一个优点是它不需要连续匹配,而且反映了句子级词序的顺序匹配。由于它自动包含最长的顺序通用n-gram,因此您不需要预定义的n-gram长度。

缺点:只计算一个最长子序列,最终的值忽略了其他备选的最长子序列及较短子序列的影响。

应用场景:单文档摘要;短摘要评估。

三、Rouge-S

即使用了skip-grams,在参考摘要和待评测摘要进行匹配时,不要求gram之间必须是连续的,可以“跳过”几个单词,比如skip-bigram,在产生grams时,允许最多跳过两个词。比如“cat in the hat”的 skip-bigrams 就是 “cat in, cat the, cat hat, in the, in hat, the hat”.

优点:考虑了所有按词序排列的词对,比n-gram模型更深入反映句子级词序。

缺点:若不设定最大跳跃词数会出现很多无意义词对。若设定最大跳跃词数,需要指定最大跳跃词数的值。

应用场景:单文档摘要;ROUGE-S4,ROUGE-S9: 多文档摘要(去停用词条件);

参考资料:
自动文摘评测方法:Rouge-1、Rouge-2、Rouge-L、Rouge-S
文本摘要的评测方法:Rouge-1, Rouge-2, Rouge-L, Rouge-S
自动文摘评测方法:Rouge-1、Rouge-2、Rouge-L、Rouge-S
ROUGE评价方法

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。