如果只使用python3.X,则下次不用看了。 请记住,有一个urllib的库
在python2.X中,这些库名称可用于:urllib、urllib2、urllib3、httplib、httplib2和requests
在python3.X中,这些库名称可用于: urllib、urllib3、httplib2和requests
两个都有urllib3和请求。 这些不是标准库。 urllib3提供线程安全连接池和文件开机自检支持,与urllib和urllib2关系不大。 requests自称为HTTP for Humans,使用更简洁、更方便
对于python2.X:
urllib和urllib2之间的主要区别:
urllib2可以接受Request对象在URL中设置报头信息,修改用户代理或设置cookie,并且urllib只能接受一个常规URL。
urllib提供了一种比较urllib2(如urlencode )中没有这些基础的原始基础的方法
urllib官方文档的几个示例
使用带参数的GET方法将urlimporturllibparams=urllib.urlencode ({ ' spam ' :1,' eggs': 2,' bacon': 0} ) f=
POST方法importurllibparams=urllib.urlencode ({ ' spam ' :1,' eggs': 2,' bacon': 0} ) f=ur lib.urlo pop
使用HTTP代理,importurllibproxies={ ' http ' : ' http://proxy.example.com :8080/' } opener=urllib.fancy URL ople
代理importurllibopener=urllib.fancy URL opener ({ } f=opener.open (' http://www.python.org/' (f.read ) ) ) )
urllib2的几个官方文档示例:
GET一个urlimporturllib 2f=urllib2. urlopen (' http://www.python.org/' ) printf.read () ) )。
使用基本的HTTP认证导入urllib 2
auth _ handler=urllib2. httpbasicauthhhandler (
auth _ handler.add _ password (realm=' pdq应用程序',
uri=' https://Mahler :8092/site-updates.py ',
user='klem ',
passwd='kadidd! ehopper ' )
操作器=urllib2. build _ opener (auth _ handler ) )。
urllib2.install_opener(opener ) )。
urllib2. urlopen (http://www.example.com/log in.html ) )。
build_opener ()在默认情况下提供许多处理程序,包括环境变量所提供的代理处理程序,而代理在默认情况下设置为环境变量所提供的处理程序。
使用代理的示例
proxy _ handler=urllib2. proxy handler ({ ' http ' : ' http://www.example.com :3128/' } )
proxy _ auth _ handler=urllib2. proxybasicauthhhandler (
proxy _ auth _ handler.add _ password (' realm '、' host '、' username '、' password ' ) )
(opener=urllib2. build _ opener (proxy _ handler,proxy_auth_handler ) ) ) ) ) ) ) )
Opener.Open(http://
www.example.com/login.html')添加HTTP请求头部importurllib2
req= urllib2.Request('http://www.example.com/')
req.add_header('Referer', 'http://www.python.org/')
r=urllib2.urlopen(req)
更改User-agentimporturllib2
opener=urllib2.build_opener()
opener.addheaders= [('User-agent', 'Mozilla/5.0')]
opener.open('http://www.example.com/')
httplib 和 httplib2 httplib 是http客户端协议的实现,通常不直接使用, urllib是以httplib为基础 httplib2 是第三方库, 比httplib有更多特性
httplib比较底层,一般使用的话用urllib和urllib2即可
对于python3.X:
这里urllib成了一个包, 此包分成了几个模块,
urllib.request 用于打开和读取URL,
urllib.error 用于处理前面request引起的异常,
urllib.parse 用于解析URL,
urllib.robotparser用于解析robots.txt文件
python2.X 中的 urllib.urlopen()被废弃, urllib2.urlopen()相当于python3.X中的urllib.request.urlopen()
几个官方例子:
GET一个URL>>> importurllib.request>>> with urllib.request.urlopen('http://www.python.org/') as f:
...print(f.read(300))
PUT一个请求importurllib.request
DATA=b'some data'req= urllib.request.Request(url='http://localhost:8080', data=DATA,method='PUT')
with urllib.request.urlopen(req) as f:pass
print(f.status)print(f.reason)
基本的HTTP认证importurllib.request
auth_handler=urllib.request.HTTPBasicAuthHandler()
auth_handler.add_password(realm='PDQ Application',
uri='https://mahler:8092/site-updates.py',
user='klem',
passwd='kadidd!ehopper')
opener=urllib.request.build_opener(auth_handler)
urllib.request.install_opener(opener)
urllib.request.urlopen('http://www.example.com/login.html')
使用proxy
proxy_handler= urllib.request.ProxyHandler({'http': 'http://www.example.com:3128/'})
proxy_auth_handler=urllib.request.ProxyBasicAuthHandler()
proxy_auth_handler.add_password('realm', 'host', 'username', 'password')
opener=urllib.request.build_opener(proxy_handler, proxy_auth_handler)
opener.open('http://www.example.com/login.html')
添加头部importurllib.request
req= urllib.request.Request('http://www.example.com/')
req.add_header('Referer', 'http://www.python.org/')
r=urllib.request.urlopen(req)
更改User-agentimporturllib.request
opener=urllib.request.build_opener()
opener.addheaders= [('User-agent', 'Mozilla/5.0')]
opener.open('http://www.example.com/')
使用GET时设置URL的参数>>> importurllib.request>>> importurllib.parse>>> params = urllib.parse.urlencode({'spam': 1, 'eggs': 2, 'bacon': 0})>>> url = "http://www.musi-cal.com/cgi-bin/query?%s" %params>>>with urllib.request.urlopen(url) as f:
...print(f.read().decode('utf-8'))
...
使用POST时设置参数>>> importurllib.request>>> importurllib.parse>>> data = urllib.parse.urlencode({'spam': 1, 'eggs': 2, 'bacon': 0})>>> data = data.encode('ascii')>>> with urllib.request.urlopen("http://requestb.in/xrbl82xr", data) as f:
...print(f.read().decode('utf-8'))
...
指定proxy>>> importurllib.request>>> proxies = {'http': 'http://proxy.example.com:8080/'}>>> opener =urllib.request.FancyURLopener(proxies)>>> with opener.open("http://www.python.org") as f:
... f.read().decode('utf-8')
...
不使用proxy, 覆盖环境变量的proxy>>> importurllib.request>>> opener =urllib.request.FancyURLopener({})>>> with opener.open("http://www.python.org/") as f:
... f.read().decode('utf-8')
...