爬虫程序属于搜索引擎吗(基于爬虫的搜索引擎的设计)

文章目录网络爬虫原理爬虫类型爬虫捕获策略网页更新策略参考文献

网络爬虫原理

首先，爬虫由于当前搜索引擎通常是数百个网页，因此搜索引擎面临的主要问题是如何在本地存储这些网页。获取这些页面的工具是爬虫

爬虫框架首先，人工选择部分网页作为初始网页放入待捕获的URL队列中，爬虫框架开始从该待捕获的URL队列中检索URL，根据该URL 这项工作一般由一个叫网络加载器的模块负责。下载网页后，进行两个阶段的工作。

分析网页内容，如果网页有URL，则将其放入当前要捕获的URL的队列中。这里需要注意的是重新进行这个操作。将网页保存到网络库中

爬行动物主要分为以下几类。

为批量型爬虫爬行动物设定一定量的捕获目标，达到目标后爬行动物不再捕获。增量型爬虫与大量爬行动物不同，它不断捕获页面，并定期更新捕获的页面。垂直型爬虫:此类爬行动物关注特定主题的内容和特定行业的页面。但需要注意的是，任何类型的爬行动物，一旦遇到爬虫禁抓协议，都不会继续抓住。

禁止逮捕爬行动物协定一般分为两种情况：

第一，告诉爬虫不要索引此页面的内容，并标记noindex :

metaname=' robots ' content=' no index '另一个是告诉爬虫不要抓住网页中包含的链接，并标记nofollow。

metaname=' robots ' content=' nofollow '爬虫捕获策略是爬虫框架中，需要捕获的URL列是关键部分，其中需要爬虫捕获的网页URL按顺序排列，形成一个列结构。每次爬行动物都从那里获取URL，进行内容的爬网。爬行器的各种捕获策略以多种方式确定要捕获的URL队列中URL的优先级。

广度优先遍历:请考虑下一页a。 a有三个URL，其中URL A指向页面a本身。 URL B指向网页b等。宽度优先遍历会将URL B，URL C依次放入待抓取的URL队列之中（这个时候URL A因为去重策略不会入队）

深度优先遍历:刚才的图，深度优先遍历将URL B放入捕获队列，然后进入网页b，将URL E放入捕获队列。这样就追溯到网页上没有新的URL为止。假设网页e不再有新链接。此时，追溯到网页b，将URL D排队，进入网页d进行查找。

非完全PageRank:该策略基于著名的链接分析算法PageRank，对捕获的URL队列中的URL进行PageRank计算，得到每个URL的PageRank分数，并基于该分数

OPIC:OPIC是一个在线页面的重要性计算，它在算法开始之前给每个URL评分相同，每次下载某个页面a时，页面a都会将自己的分数评分到页面a中包含的链接

大网站优先:此策略按属于要捕获的URL队列的站点进行分类。如果哪个网站等待下载的页面最多，这是一个大型网站，将优先下载。

由于网页更新策略中的网页往往是动态变化的，因此对于已经捕获的网页，您有责任保持爬虫的内容与internet页面的内容同步，具体取决于爬虫采取的是什么网页更新策略

常见的网页更新策略包括：

历史参考策略:该战略基于假设：过去频繁更新的网页将来也会频繁更新。它利用泊松过程对网页的变化进行建模，根据每个网页过去的变动情况，用模型预测将来适当的内容会再次发生变化，指导爬虫的捕获过程。用户体验策略:此策略以用户体验为中心，即使本地web内容过期，只要不影响体验，也是可以接受的。保存网页的多个历史版本，根据过去每次内容的变化对搜索引擎质量的影响得出平均值，作为判断爬虫是否应该抓住网页的参考依据。聚类抽样策略:该策略认为网页有几个属性，可以根据这些属性预测更新周期，相似的网页也认为更新周期相似。因此，可以根据这些属性来分类网页，并进行统一，以使类别内的网页具有适当的更新频率。参考文献[1]这就是搜索引擎