首页 > 编程知识 正文

http请求响应过程,简述http的请求过程

时间:2023-05-04 15:29:43 阅读:182009 作者:4827

当我们使用Python爬行时,HTTP请求进程——Chrome浏览器网络实际上使用第三方库以目标url向所在服务器发送请求,站点的服务器接收该请求响应中包含页面的源代码等。 然后,分析和处理子以获得所需的信息。

根据自己展示的内容,各网站有不同程度的反向手段。 我们需要分析这个,准确地得到自己想要的回报。 为了更直观地说明这个过程,我们使用Chrome浏览器的Network监听组件进行分析。

打开Chrome浏览器时,快捷键F12将打开浏览器的“开发人员工具”。 这里访问百度,观察在这个过程中发生了什么样的网络请求。 项目显示在Network页面的下方。 其中一个项目表示发送请求和接收响应的过程。

Name :请求名称

Status :响应状态代码。 由于200响应成功,这可以确定请求是否成功响应

Type :请求文档类型。 文档是HTML文档或HTML代码

启动器:请求者。 用于标记启动请求的对象或进程

Size :从服务器下载的文件和请求资源的大小。 如果是从缓存中获得的资源,则为from cache

Time :从请求开始到得到响应的总时间

防火墙:网络请求的可视化瀑布

单击第一个请求的详细信息。

回过头来:

一般部分:

Request URL :请求的URL

请求方法:请求使用的方法

状态代码:响应状态代码

远程地址—远程服务器的地址和端口

Reffer Policy:Referrer判别策略

请求标头:

Accept :请求标头字段,用于指定客户端可以接受的信息类型

接受编码:指定客户端可接受的语言类型

接受语言:指定客户端可接受的内容编码

Host指定请求资源的主机的IP和端口号。 这是请求URL的原始服务器或网关的位置

cookie :网站是存储在用户本地的数据,用于标识用户正在进行会话跟踪。 主要功能是保持当前的访问会话。 (非常重要! 呃! 呃! ) )

Referer :用于识别此请求来自哪个页面。 服务器获得此信息并进行适当的处理。 例如来源统计、防盗链等

User-Agent:是一种特殊的字符串标题,它允许服务器识别客户使用的操作系统和版本等信息。 做爬行动物的时候一定要添加这个信息

Content-Type :互联网媒体类型。 HHTP协议消息,用于表示特定请求中的媒体信息类型

以上说明了最重要的事情…

对应的头部:

Date :标识响应发生的时间

内容编码:指定响应内容的编码

Server :包含名称、版本号等服务器信息

Content-Type :指示要返回的数据类型的文档类型。 这里的text/HTML表示返回了html代码

设置密码:设置密码。 响应脑海中的Set-Cookie,将此内容放入Cookies中,告诉浏览器下次请求携带Cookies请求

Expires :指定响应过期时间,以便代理服务器可以将加载的内容更新到高速缓存中。 再次访问时,可以直接从缓存中加载,减轻服务器负载,缩短加载时间。

以上说明了最重要的事情…

一个HTTP请求包括了请求方法,请求网址,请求头,请求体,在爬虫的时候做重要的是做好请求头的伪装,要会看其网页返回的请求头,来分析其反爬,设置相应的请求头。之后就是响应体,从中我感觉最重要的是知道网页返回的内容的格式,从而来选择响应的第三方库来进行解析。

在请求头的设置中我感觉只要设置了User-Agent,Cookies,Referer,Accept便可应对绝大部分网页的反爬。

看到的兄弟可以通过评论分享自己设置请求报头时的经验

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。