首页 > 编程知识 正文

simrank算法(pagerank实例)

时间:2023-05-03 09:35:19 阅读:1819 作者:4950

PageRank算法是谷歌排名算法(排名公式)的一部分,是谷歌用来识别网页排名/重要性的方法,也是谷歌衡量网站质量的唯一标准。

这是一篇关于PageRank算法的纯理论研究文章。前半部分阐述了PageRank的基本理论,后半部分提出了自己的一些发现。此外,首先需要强调的是,对PageRank算法的抽象研究主要是为了更好地构建网站中的链接,这与工具栏PR(通常称为PR)是一样的。)基本上没关系。

此外,理解PageRank算法对SEOer非常重要,因为它是最经典的链接算法之一。尽管博客的读者可能有不同的层次,但他们仍然希望确保更多的人能够理解他们,所以他们试图让文章更容易理解。我想说的是,虽然很长,但是值得一看。

一、PageRank概述

PageRank基于随机冲浪模型,可以看作是模拟访问者访问网站的情况。当一个网页导入的链接比较多,并且那些链接也在用户点击率比较高的位置时(比如链接跟在文字后面效果好,但是链接在页脚的时候效果就比较差,这也很有可能包含在PageRank算法中),被用户浏览的机会就会比较多,所以在搜索引擎看来权重会比较高。

PageRank算法的随机冲浪模型更像是“投票”,因为更容易理解。当一个页面连接到另一个页面时,它被视为投票,投票越多的页面权重越高。此外,每页的投票权也不平等。源页面本身的权重越高,其投票权就越大。因此,如果一个页面要有很高的权重,它应该有足够的高质量的导入链接。

PageRank算法对数学的要求非常高,所以本文只从(也只能从)最简单的角度写尽可能多的实际东西。

二、PageRank的产生和传递

最初的PageRank值是由网页生成的,每个网页天生就有一个小的PR值。此外,搜索引擎也可能会给第一个发现的域名的主页赋予较小的PR值,这与PageRank的改进算法之一有关。

PageRank的传输是从那些页面开始的,给出这个页面85%左右的PR值,这样连接到这个页面的那些页面就可以平分这85%的PR(页面本身不会丢失PR)。让我们通过绘画使它变得更简单。

三、PR值传递简单示意图

首先假设首页PR分100,栏目页85,内页72。数值是随机取的,主要是为了方便区分。为了方便理解,这个示意图也很简洁,没有考虑内页和栏目页连接回首页等问题。

图中的第二行和第三行分别代表两轮计算。实际上,需要更多的时间来实现数值稳定性。当然,这只是为了说明问题,两次就够了。

在第一轮计算中,PR的输出是从每个有传出链接的网页计算出来的。此时,列页面和内部页面分别获得一个PageRank值。但是实际从内页得到的PageRank应该不仅仅是这些,因为在第一轮计算中,连接到它的columns page得到了更多的PR。此时进行第二轮计算,内页此时获得更多PR。

实际上,因为链接结构要复杂得多,所以图中内页的总PR不太可能比首页高,因为内页仍然会连接回首页。当数值经过多次计算趋于稳定时,每页的分数已经会很大,但它们之间的比例是稳定的。

第四,PageRank算法的猜想

从上图可以发现,PR传播中非常重要的一点就是“层”的概念(比如三层结构一般由首页、栏目页和内页组成)。但是不管每一层有多少页面在这里,他们总是划分那一层的PR值。所以这里一层可以看作一个节点。

P.S. node是一个点,可以用来简化概念。SEO中的页面和索引词可以看作节点。例如,在下面的两层标准结构中,你可以闭上眼睛,把首页和内页想象成两个点,然后有两个箭头(弧)连接它们,这意味着首页连接内页,内页连接首页。

看下图。首先,不要太在意数值。才明白其中的意思:

上图涉及一些相当迂回的计算,虽然数学角度很简单。计算方法与第一张图片相同,但另外考虑内页到首页的链接等。计算一共进行了三次(按照地球的说法,谷歌迭代计算了三次,百度只计算了一次。)。

可以发现,层数越多的链接结构,PageRank值越大。然而,问题是大部分额外的页面排名都发布在列页面中。对于某些类型的网站,栏目页面不一定要有很高的PR(但大型网站必须从栏目页面提供足够的PR,供爬虫频繁抓取)。

层数较多的结构最显著的缺点在于内页层的总PR。当层数较多时,以权重(2)给予网站首页大量PR(之所以给予首页PR是因为实际情况下首页更容易获得外部链接),其能增加的PageRank值很少。

如果这个理论推断没有错误的话,我们可以得出这样的结论:当多层网站的内页优化力度不强时,排名很可能大部分是基于领域权限,而很少是基于页面权重。如果网页的权重可以一起使用,那些大型网站的流量很可能会得到一个很大的飞跃。

>而如何提升内页的网页权重这一点,首先可以是按照这个思路进一步尝试其他链接结构,另外前面也提到过链接的位置很可能是会影响权值的传递比例的,把不重要的链接放在会被搜索引擎消噪的噪音区域,或许就会好得多。

对于小型网站而言,也可以发现的是,很多博客的结构是两层的,它就可以很方便的把内页的权重最大化。当然标准的两层结构还要求博客首页显示更多内页的链接,或许可以参考这个页面的做法:

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。