为什么要加请求头（HTTP Header）？

在进行网页抓取（Web Scraping）时，请求头（HTTP Header）扮演着非常重要的角色。请求头中包含了用户代理（User Agent）、cookie、referer等信息。这些信息不但可以用于发送请求，也可以影响到服务器的应答结果。在本文中，我们将从多个角度去探讨HTTP协议、拥有HTTP请求头的重要性，并给出Python语言的实例代码。

一、HTTP协议

HTTP（超文本传输协议）是一个应用层协议，用于在Web浏览器和Web服务器之间传递数据。HTTP的主要特点是无状态，即Http请求与Http响应是相互独立的，每一个请求都要完整的附上相关的内容，服务器处理完客户端发送的请求之后，不会保留任何状态信息。这使得HTTP协议不适用于需要在多个请求之间维护信息的Web应用程序，如各种银行系统、购物系统等。

二、爬虫如何“模拟”请求

在进行网页抓取时，我们需要将Web服务端的内容爬取下来，类似于我们在浏览器中输入网页地址，按下回车键，就可以得到网页的源码。那么，如何模拟自己在浏览器中输入网页地址，以便得到Web服务端的内容呢？我们需要了解一下HTTP请求的模拟方法。

我们通常采用Python的requests模块发送HTTP请求。以下是Python语言示例代码：

import requests

url = 'http://www.example.com'
response = requests.get(url)
print(response.text)

在上述代码中，我们首先导入了Python的requests模块，并提供了要抓取的网页URL。最后的print语句用于打印请求到的内容。这个例子中，请求操作的目标是url所对应的“www.example.com”这个网站的HTML页面，并将该HTML页面返回到本地化处理。相当于我们在浏览器中输入了网页地址，按下回车键，就可以得到HTML源码。

一般来说，简单的HTTP请求并不需要太多的参数，上述代码可以满足大多数的需求。但随着爬虫技术的不断演进，新的爬虫技术的滋生，爬虫工程师会越来越频繁地模仿请求，甚至按照自己的需求构造请求报文。稍不留神，就有可能不小心触发服务端的安全防范措施，甚至被封禁IP，这时候“模拟请求”的重要性就凸显出来了。

三、模拟请求的关键请求头信息

在模拟请求时，我们通常需要构造HTTP报文，同时在HTTP报文的头信息中加入必要的请求头信息，来模拟真实用户的请求效果。下面，我们就来介绍一下HTTP头信息中最为常用的几个字段。

1. User-Agent

在模拟请求时，使用User-Agent可以用于设置当前请求的浏览器类型，以及操作系统信息，目的是让对方服务器认为你是一个普通用户，最终让你直接获取最终页面的内容。在上方Python代码示例中，我们并没有加入请求头信息，此时requests默认的User-Agent可能会被服务器认为是爬虫，无法返回HTML内容。为了避免这种情况，我们可以自定义User-Agent。示例代码如下：

import requests

my_headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}
url = 'http://www.example.com'
response = requests.get(url, headers=my_headers)
print(response.text)

2. Referer

Referer是HTTP头信息中一个相对比较少见但是常用的字段。它通常用于标识本次请求的上一个页面的地址，可以用于模拟用户的真实请求方式。代码示例如下:

import requests

my_headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
    'Referer': 'http://www.example.com'
}
url = 'http://www.example.com'
response = requests.get(url, headers=my_headers)
print(response.text)

3. cookie

Cookie是Web服务器存储在客户端的一段文本信息，例如我们登录之后，服务器会为我们设置一个唯一的Cookie并且下发到客户端，接下来，我们再访问其他的页面，如购物车、账号信息等就使用这个Cookie来验证你的登录信息，完成登录状态保持。示例代码如下：

import requests

my_headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
    'Cookie': 'id=123;type=user'
}
url = 'http://www.example.com'
response = requests.get(url, headers=my_headers)
print(response.text)

通过上述的示例代码，我们将了解到请求头信息中一些关键的参数，例如User-Agent、Referer以及Cookie等。这些参数可以帮助我们模拟真实用户请求的方式，同时避免服务器对我们的拦截，这对于进行网络爬虫来说非常重要。

四、HTTP请求头参数获取和重复设置

在进行网络爬虫时，我们不可能手动复制粘贴上述头信息，每次都进行设置，这样会极大降低爬取效率。因此，我们通常会事先构造好常用请求头信息，每次进行网络爬虫时，直接调用该请求头数据进行网络请求，避免重复操作。Python示例代码如下：

import requests

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
    'Referer': 'http://www.example.com',
    'Cookie': 'id=123; type=user'
}

def request():
    url = 'http://www.example.com'
    return requests.get(url, headers=headers)

response = request()
print(response.text)

如上述示例代码所示，我们构造了常用HTTP头信息，并在函数内使用requests库直接调用即可完成网络爬取操作。可以看到，通过这种方式可以避免反复添加HTTP头信息，加快请求速度和爬虫效率。

五、总结

在进行网络爬虫时，HTTP请求头信息的作用尤为重要。通过请求头信息，我们可以帮助模拟真实用户请求行为，防止被反爬。在本文中，我们从HTTP协议、模拟请求方法和请求头信息作用三个方面进行了说明，并提供了Python示例代码，以便读者理解HTTP请求头信息的重要性和使用方法。