在互联网时代,从事爬行类工作的人非常多,经常使用爬行类的互联网用户,是用于捕捉网站、从页面提取结构化数据的快速、高级的截图和网络捕捉框架scrapy Scrapy用途广泛,可用于数据挖掘、监视和自动化测试。 最吸引人的是可以根据个人需求修改的框架。 这里主要介绍代理IP池结构。 请看以下内容。
代理池由四个部分组成:
代理获取器:
代理获取接口可以在每次调用时捕获此站点的最新代理并将其放入数据库,然后自己添加代理获取接口;
DB:
用于存储代理IP,目前暂时仅支持SSDB。 如果没有使用SSDB,安装也很简单;
Schedule:
任务用户定期检测数据库中代理的可用性,并安排删除不可用的代理。 也可以通过代理获取器获取最新的代理并将其放入数据库
ProxyApi:
代理池的外部接口。 功能是为爬行动物提供get/delete/refresh等接口,供爬行动物直接使用。
这是scrapy代理的ip池结构的简要介绍。 明白了吗?