首页 > 编程知识 正文

python爬虫ip代理,python实战案例

时间:2023-05-04 01:44:04 阅读:28283 作者:4329

IP代理池推荐使用下边的代理池,比较方便,我们启动后直接从5555端口拿代理就行了。需要注意的是需要使用Redis,默认使用的是本机的Redis。

3359 github.com/python3web spider/proxy pool

Python自动化importrandomfromlxmlimportetreeimportrequestsproxypool _ URL=' http://127.0.0.1:5555/random ' def spider () 0 headers (3360 proxy=requests.get (proxy pool _ URL ).text.strip ) ) proxies={ ' http ' 3360 ' 3358 ' proxy } rety Intel Mac OS X 10_13_5) appleWebKit/537.36(khtml,like Gecko ) chrome/96.0.4664.55 safari/537.36 ',' Mozilla 英特尔MACOSx10.13; rv:94.0 ) Gecko/20100101 Firefox/94.0 ',' Mozilla/5.0 ) MAC OS; 英特尔MAC OS x 10 _ 13 _5) appleWebKit/605.1.15(khtml, like Gecko )版本/11.1.1 safari/605.1.15 ' )从Headadi CSDN博客中搜索到的文章' user-agent ' : user _ agent [ random . usernum (3360 list=[ ] base URL=' https://blog.csdn.net/' userid '/article/list/' infobase URL=' 3359 blog.cs dog int(usernum )1) : url=baseUrl str(i ) I ) r=spider ) URL=URL, headers=get_Random_Agent () r.encoding=r.apparent _ encoding html _ str=r.text html=etree.html ) ) html 3360response=spider(URL=URL,headers=get_Random_Agent () response.encoding=response.apparent _ encodingint url ) : try : html _ str=etree.html (html ) read _ num=html _ str.XPath (/(@ class=' read-count ) ) 打印(URL )的当前阅读量为:(str ) read_num[0] ) ) exception ase :打印(e )打印(分析错误) ) (def main ) ) ) ) print ) )主页连接请输入:https://blog.csdn.net/' userid '/article/list ' ) userNum=input ('文章总页数: ) (allinfourl=get_user_infoURL ) userid,userNum ) while true 3360 foriinallinfourl 360

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。