首页 > 编程知识 正文

textrank算法使用的是余弦相似度方法,排序算法有哪些textrank

时间:2023-05-06 09:50:54 阅读:266003 作者:568

TextRank与PageRank

TextRank的灵感来源于大名鼎鼎的PageRank算法,这是一个用作网页重要度排序的算法。

这个算法是基于图的,每个网页可以看作是一个图中的结点,如果网页A能够跳转到网页B,那么则有一条A->B的有向边。这样,我们就可以构造出一个有向图了。然后,利用公式:

经过多次迭代就可以获得每个网页对应的权重。下面是公式每个元素的含义:

可以发现,这个方法只要构造好图,对应关系自然就有了,这实际上是一个比较通用的算法。那么对于文本来说也是同样的,只要我们能够构造出一个图,图中的结点是单词/句子,只要我们通过某种方法定义这些结点存在某种关系,那么我们就可以使用上面的算法,得到一篇文章中的关键词/摘要。

使用TextRank提取关键词

提取关键词,可以采取和“网页中选哪个网页比较重要”类似的方法,只需要想办法把图构建出来。

图的结点是“单词”。把文章拆成句子,每个句子再拆成单词,以单词为结点。

那么边如何定义呢?这里就可以利用n-gram的思路,简单来说,某个单词,只与它附近的n个单词有关,即与它附近的n个词对应的结点连一条无向边(两个有向边)。

另外,还可以做一些操作,比如把某类词性的词删掉,一些自定义词删掉,只保留一部分单词,只有这些词之间能够连边。
 

使用TextRank提取文章摘要

提取文章摘要以句子为结点。计算两个句子的相似度来定义边。似度的公式:

简单来说就是,两个句子单词的交集除以两个句子的长度。然后还有一点就是,其他计算相似度的方法应该也是可行的,比如余弦相似度,最长公共子序列之类的,不过论文里一笔带过了。

 

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。