首页 > 编程知识 正文

简单python爬虫完整代码,python爬虫代码示例

时间:2023-05-05 14:26:40 阅读:32785 作者:3790

这里经常被摘录,只是用于个人理解。

1。 urlopen ().read ) )是通过滚动网页内容获取的,可能出现的是一堆源代码。 和我们右键单击网页查看的一样。

2。 使用http请求时,

可以使用Request将请求的地址url封装为单个请求,然后使用urlopen

发送数据:

您可能希望将数据发送到URL (通常是URL和CGI )通用语言接口(generalgatewayinterface )脚本或其他web APP应用程序挂接。

在HTTP中,这是使用众所周知的开机自检请求发送的。

这通常由浏览器在你提交HTML表单时完成。

并不是所有的POSTs都来自表单。 可以使用POST将任意数据提交给自己的程序。

的常规HTML表单。 data必须编码为标准格式。 然后作为data参数传递给Request对象。

3标题,伪装成浏览器用户代理

添加标头的方法包括直接写在词典中,以及以addheaders的形式添加http://www.jb51.net/article/51941.htm

4。 异常处理

典型错误包括找不到“404”页、禁止请求“403”和请求“401”。

5。 处理程序代理

操作人员使用处理器handlers,所有“沉重”工作都由handlers处理。

每个handlers都知道如何通过特定协议打开URLs,以及如何处理URL打开时的各个方面。

例如HTTP重定向或HTTP cookies。

如果您想在特定处理器上获取URLs,您可能想创建openers,例如获取可以处理cookie的opener,或者获取不重定向的opener。

要创建操作者,请实例化操作者主管。

然后调用. add _ handler (some _ handler _ instance )。

同样,可以使用build_opener。 这是创建opener对象的更有用的函数,只需要一次函数调用。

缺省情况下,build_opener添加几个处理器,但它提供了添加或更新缺省处理器的快速方法。

其他处理器handlers可能希望处理代理、验证和其他常见但有点特殊的情况。

install_opener用于创建默认的opener。 这意味着如果调用urlopen,将使用安装的opener。

Opener对象具有open方法。

此方法可以用于直接获取urls,就像urlopen函数一样。 通常,除了方便之外,不需要调用install_opener。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。