首页 > 编程知识 正文

robot协议查看,robots协议的具体内容

时间:2023-05-06 12:51:32 阅读:215190 作者:362

网络爬虫之Robots协议 1、Robots协议基本语法2、Robots协议的使用及理解

  Robots协议是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件,该协议仅约定俗成,道德约束,无法律效益和实质性的安全意义,放在网页的根目录下。
  存在该协议的原因请看下图所示:


1、Robots协议基本语法 # 注释, *代表所有, /代表根目录User-agent: *Disallow: /

其中:
  User-agent 表示的是哪些爬虫,可以指定,也可以用 * 表示所有爬虫;
  Disallow 表示的不允许访问资源的目录,若为 / 则表示所有目录均不允许访问。

下面给出常用爬虫网站的Robots协议:

2、Robots协议的使用及理解


版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。