网络爬虫之Robots协议 1、Robots协议基本语法2、Robots协议的使用及理解
Robots协议是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件,该协议仅约定俗成,道德约束,无法律效益和实质性的安全意义,放在网页的根目录下。
存在该协议的原因请看下图所示:
其中:
User-agent 表示的是哪些爬虫,可以指定,也可以用 * 表示所有爬虫;
Disallow 表示的不允许访问资源的目录,若为 / 则表示所有目录均不允许访问。
下面给出常用爬虫网站的Robots协议: