python爬虫实例,python requests

如果只使用python3.X，则下次不用看了。请记住，有一个urllib的库

在python2.X中，这些库名称可用于：urllib、urllib2、urllib3、httplib、httplib2和requests

在python3.X中，这些库名称可用于： urllib、urllib3、httplib2和requests

两个都有urllib3和请求。这些不是标准库。 urllib3提供线程安全连接池和文件开机自检支持，与urllib和urllib2关系不大。 requests自称为HTTP for Humans，使用更简洁、更方便

对于python2.X:

urllib和urllib2之间的主要区别：

urllib2可以接受Request对象在URL中设置报头信息，修改用户代理或设置cookie，并且urllib只能接受一个常规URL。

urllib提供了一种比较urllib2(如urlencode )中没有这些基础的原始基础的方法

urllib官方文档的几个示例

使用带参数的GET方法将urlimporturllibparams=urllib.urlencode ({ ' spam ' :1，' eggs': 2，' bacon': 0} ) f=

POST方法importurllibparams=urllib.urlencode ({ ' spam ' :1，' eggs': 2，' bacon': 0} ) f=ur lib.urlo pop

使用HTTP代理，importurllibproxies={ ' http ' : ' http://proxy.example.com :8080/' } opener=urllib.fancy URL ople

代理importurllibopener=urllib.fancy URL opener ({ } f=opener.open (' http://www.python.org/' (f.read ) ) ) )

urllib2的几个官方文档示例：

GET一个urlimporturllib 2f=urllib2. urlopen (' http://www.python.org/' ) printf.read () ) )。

使用基本的HTTP认证导入urllib 2

auth _ handler=urllib2. httpbasicauthhhandler (

auth _ handler.add _ password (realm=' pdq应用程序'，

uri=' https://Mahler :8092/site-updates.py '，

user='klem '，

passwd='kadidd！ ehopper ' )

操作器=urllib2. build _ opener (auth _ handler ) )。

urllib2.install_opener(opener ) )。

urllib2. urlopen (http://www.example.com/log in.html ) )。

build_opener ()在默认情况下提供许多处理程序，包括环境变量所提供的代理处理程序，而代理在默认情况下设置为环境变量所提供的处理程序。

使用代理的示例

proxy _ handler=urllib2. proxy handler ({ ' http ' : ' http://www.example.com :3128/' } )

proxy _ auth _ handler=urllib2. proxybasicauthhhandler (

proxy _ auth _ handler.add _ password (' realm '、' host '、' username '、' password ' ) )

(opener=urllib2. build _ opener (proxy _ handler，proxy_auth_handler ) ) ) ) ) ) ) )

Opener.Open(http://

www.example.com/login.html')

添加HTTP请求头部importurllib2

req= urllib2.Request('http://www.example.com/')

req.add_header('Referer', 'http://www.python.org/')

r=urllib2.urlopen(req)

更改User-agentimporturllib2

opener=urllib2.build_opener()

opener.addheaders= [('User-agent', 'Mozilla/5.0')]

opener.open('http://www.example.com/')

httplib 和 httplib2 httplib 是http客户端协议的实现,通常不直接使用, urllib是以httplib为基础 httplib2 是第三方库, 比httplib有更多特性

httplib比较底层，一般使用的话用urllib和urllib2即可

对于python3.X:

这里urllib成了一个包, 此包分成了几个模块,

urllib.request 用于打开和读取URL,

urllib.error 用于处理前面request引起的异常,

urllib.parse 用于解析URL,

urllib.robotparser用于解析robots.txt文件

python2.X 中的 urllib.urlopen()被废弃, urllib2.urlopen()相当于python3.X中的urllib.request.urlopen()

几个官方例子:

GET一个URL>>> importurllib.request>>> with urllib.request.urlopen('http://www.python.org/') as f:

...print(f.read(300))

PUT一个请求importurllib.request

DATA=b'some data'req= urllib.request.Request(url='http://localhost:8080', data=DATA,method='PUT')

with urllib.request.urlopen(req) as f:pass

print(f.status)print(f.reason)

基本的HTTP认证importurllib.request

auth_handler=urllib.request.HTTPBasicAuthHandler()

auth_handler.add_password(realm='PDQ Application',

uri='https://mahler:8092/site-updates.py',

user='klem',

passwd='kadidd!ehopper')

opener=urllib.request.build_opener(auth_handler)

urllib.request.install_opener(opener)

urllib.request.urlopen('http://www.example.com/login.html')

使用proxy

proxy_handler= urllib.request.ProxyHandler({'http': 'http://www.example.com:3128/'})

proxy_auth_handler=urllib.request.ProxyBasicAuthHandler()

proxy_auth_handler.add_password('realm', 'host', 'username', 'password')

opener=urllib.request.build_opener(proxy_handler, proxy_auth_handler)

opener.open('http://www.example.com/login.html')

添加头部importurllib.request

req= urllib.request.Request('http://www.example.com/')

req.add_header('Referer', 'http://www.python.org/')

r=urllib.request.urlopen(req)

更改User-agentimporturllib.request

opener=urllib.request.build_opener()

opener.addheaders= [('User-agent', 'Mozilla/5.0')]

opener.open('http://www.example.com/')

使用GET时设置URL的参数>>> importurllib.request>>> importurllib.parse>>> params = urllib.parse.urlencode({'spam': 1, 'eggs': 2, 'bacon': 0})>>> url = "http://www.musi-cal.com/cgi-bin/query?%s" %params>>>with urllib.request.urlopen(url) as f:

...print(f.read().decode('utf-8'))

...

使用POST时设置参数>>> importurllib.request>>> importurllib.parse>>> data = urllib.parse.urlencode({'spam': 1, 'eggs': 2, 'bacon': 0})>>> data = data.encode('ascii')>>> with urllib.request.urlopen("http://requestb.in/xrbl82xr", data) as f:

...print(f.read().decode('utf-8'))

...

指定proxy>>> importurllib.request>>> proxies = {'http': 'http://proxy.example.com:8080/'}>>> opener =urllib.request.FancyURLopener(proxies)>>> with opener.open("http://www.python.org") as f:

... f.read().decode('utf-8')

...

不使用proxy, 覆盖环境变量的proxy>>> importurllib.request>>> opener =urllib.request.FancyURLopener({})>>> with opener.open("http://www.python.org/") as f:

... f.read().decode('utf-8')

...