恩蓝号

python爬虫实例100例,网络爬虫的国内外发展

       收到某某某危机的香菇求助,写一个简单的爬虫把某个网站的国内机场以及对应的三字代码爬取下来,网上搜了一下爬虫入门的资料就开始写了。

屁话少说,上代码,注释都写好了,应该好理解。

#!/usr/独特的羽毛/python #引入漂亮汤from bs4 import BeautifulSoup#引入requests包,用来发送http请求import requests#引入xlwt包,用来写入excel文件import xlwt#引入xl包,用来读取excel文件import xlrd def getList(url): #伪装成浏览器,嘿嘿 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER'} #get从网页获取信息 res = requests.get(url,headers=headers) #使用bs解析html文件,并且指定编码为gb18030(因为第四个页面竟然不是utf-8编码的,所以这里需要指定一下编码,这位前端工程师请长点心吧) soup = BeautifulSoup(res.content,'html.parser', from_encoding="gb18030") #使用选择器来获取需要的数据 tds = soup.select('.border>.tdbg>td:nth-child(1),.border>.tdbg>td:nth-child(2)') #打印一下获取到的数据,瞄一眼有木有问题 for item in tds: print(item.get_text().strip()) #一股脑将数据丢给调用的函数自己处理吧 return tds def main(): #创建excel工作表 file_printer = xlwt.Workbook() #添加sheet work_sheet = file_printer.add_sheet('Sheet1'); #需要爬取4个url的内容 urls = [ 'http://www.6qt.net/index.asp?Field=Country&keyword=%D6%D0%B9%FA', 'http://www.6qt.net/index.asp?Field=Country&keyword=%D6%D0%B9%FA&MaxPerPage=50&page=2', 'http://www.6qt.net/index.asp?Field=Country&keyword=%D6%D0%B9%FA&MaxPerPage=50&page=3', 'http://www.6qt.net/index.asp?Field=Country&keyword=%D6%D0%B9%FA&MaxPerPage=50&page=4' ] #准备写入excel表格,当前的行数和列数置为0 row = 0; col = 0; #爬取所有的url指向的html文件 for url in urls: #解析每个html文件,抽取需要的城市+三字代码并且返回 lst = getList(url) #将每个页面爬取出来的数据写入excel文件 for item in lst: if col >= 2: row+=1; col = 0; else: work_sheet.write(row, col, item.get_text().strip())# print(row, col, item.get_text().strip()) col+=1; #保存文件 file_printer.save('/Users/muxue/Documents/a.xls')if __name__ == '__main__': main()

 

免责声明:文章源自网络,版权归原作者所有,如有侵犯联系删除。

当前位置:首页 > 编程知识 » 2023-03-03 12:08:25

猜你喜欢


java课程设计,怎么学爬虫编程

大数据时代,如何形成大数据。 大用户量,每天很多日志。 搞个爬虫,抓几十亿数据过来分析分析。 并不是只有Python才能做爬虫,Ja...

http代理爬虫隧道,爬虫课程

目前在学习爬虫的课程以下小坐总结:第一天主要看了以写爬虫的原理以及爬虫数据的抓取一1.1:为什么学习爬虫最主要的是在目前看来,爬虫工程师属于...