简单python爬虫完整代码,python爬虫代码示例

这里经常被摘录，只是用于个人理解。

1。 urlopen ().read ) )是通过滚动网页内容获取的，可能出现的是一堆源代码。和我们右键单击网页查看的一样。

2。使用http请求时，

可以使用Request将请求的地址url封装为单个请求，然后使用urlopen

发送数据：

您可能希望将数据发送到URL (通常是URL和CGI )通用语言接口(generalgatewayinterface )脚本或其他web APP应用程序挂接。

在HTTP中，这是使用众所周知的开机自检请求发送的。

这通常由浏览器在你提交HTML表单时完成。

并不是所有的POSTs都来自表单。可以使用POST将任意数据提交给自己的程序。

的常规HTML表单。 data必须编码为标准格式。然后作为data参数传递给Request对象。

3标题，伪装成浏览器用户代理

添加标头的方法包括直接写在词典中，以及以addheaders的形式添加http://www.jb51.net/article/51941.htm

4。异常处理

典型错误包括找不到“404”页、禁止请求“403”和请求“401”。

5。处理程序代理

操作人员使用处理器handlers，所有“沉重”工作都由handlers处理。

每个handlers都知道如何通过特定协议打开URLs，以及如何处理URL打开时的各个方面。

例如HTTP重定向或HTTP cookies。

如果您想在特定处理器上获取URLs，您可能想创建openers，例如获取可以处理cookie的opener，或者获取不重定向的opener。

要创建操作者，请实例化操作者主管。

然后调用. add _ handler (some _ handler _ instance )。

同样，可以使用build_opener。这是创建opener对象的更有用的函数，只需要一次函数调用。

缺省情况下，build_opener添加几个处理器，但它提供了添加或更新缺省处理器的快速方法。

其他处理器handlers可能希望处理代理、验证和其他常见但有点特殊的情况。

install_opener用于创建默认的opener。这意味着如果调用urlopen，将使用安装的opener。

Opener对象具有open方法。

此方法可以用于直接获取urls，就像urlopen函数一样。通常，除了方便之外，不需要调用install_opener。