scrapy 全网爬虫,python爬虫基础教程

Python爬虫Scrapy框架入门(一)系列文章目录文章目录Python爬虫Scrapy框架入门)一)系列文章目录序言一，什么是爬虫？二、Scrapy框架1.Scrapy是什么？ 2.Scrapy五大基本配置3、工作流官网结构图总结

前言随着时代的发展，爬行动物技术也越来越多地被使用。

爬行动物的领域也很巨大。例如搜索引擎、舆论分析和数据挖掘、导游采购、价格检测、黑产、灰产等。

提示：以下为本文正文内容，以下案例可供参考

一、爬行动物是什么？爬行动物，也就是网络爬行动物，可以理解为在网络上爬行的蜘蛛。互联网被比作一个大网。爬行动物是在这个网上爬的蜘蛛，遇到自己的猎物(必要的资源)的话，就会抓住它。例如，你抓住了一个网页。在这个网上他找到了路。其实是网页的超链接。这样，你就可以上另一个网获取数据。

这是一个非常简单的爬虫importrequestsdefcrawl(URL ) : response=requests.get (URL ) print ) response.text ) if _ name _=可用于广泛的用途，从数据挖掘到监控，再到测试自动化。

2.Scrapy的五个基本配置Scrapy框架主要由五个组件组成，分别是调度器(Scheduler )、下载器(downloader )、爬行器(Scrapy引擎)。1、调度器（Scheduler）：

调度程序接受来自引擎的请求，将过滤器中重复的url按成队列，并在引擎再次请求时返回。考虑到url (抓住网页的url或链接)优先队列，下一个抓住的url由他决定是什么，用户可以根据自己的需要定制调度器。2、下载器

下载程序是所有组件中负担最重的，用于高速下载网络上的资源。 Scrapy下载程序的代码并不复杂，但是很有效率。原因： Scrapy下载程序构建在名为twisted的高效异步模型上。 (3、爬虫

爬行动物主要工作，是用户最关心的部分，可以生成url，从特定的url中提取自己需要的信息。所谓实体(Item )。用户也可以从中提取链接，以便Scrapy继续捕获下一页。4、实体管道

爬行动物处理从网页中提取的实体的主要功能是持久化实体、验证实体的有效性和消除不必要的信息。当页面被爬行器分析时，它将被发送到项目管道，并按几个特定的顺序处理数据。5、引擎

Scrapy引擎是整个框架的核心。用于控制调度器、下载器和爬行器。实际上，引擎相当于计算机的CUP，它控制着整个过程。处理整个系统的数据流并触发事务。

三、工作流程详细步骤

1、spider内的url作为请求对象封装后传递给引擎(每个请求对象一个) ) ) )。

2、引擎拿到请求方后，全部交给调度器

3、调度程序得到所有请求对象后，在内部过滤器中过滤重复的url，最后将所有重复的url对应的请求对象推入队列，调度程序读取其中一个请求对象，传递给引擎

4、引擎将调度程序调用的请求方传递给下载器

5、下载器拿到这个对象把数据下载到网上

6、数据下载成功后封装在响应中，然后将响应传递给下载器

7、下载机将响应传递给引擎

8、引擎将响应传递给spider

9、spiders获取响应后，调用回调方法的数据分析，分析成功后生成item，然后spiders将item传递给引擎

10、引擎将item交给管道，管道拿到item后进行数据持久化存储

官方网站体系结构图

总结以上内容是我今天说的Scrapy的基础。以上，对Scrapy的5个基本构成、Scarpy的工作流程进行了简单说明。下一篇文章介绍了Scarpy的创建和基本使用。