首页 > 编程知识 正文

python爬虫程序代码,python爬虫实战案例

时间:2023-05-04 11:51:21 阅读:32826 作者:937

我今天整理了23个Python爬虫项目。 之所以整理,是因为爬行动物入门简单快捷,也最适合新入门的伙伴培养自信。 所有链接都指向GitHub。 祝你玩得开心

1、微信微信[1]微信微信公众号爬虫。

基于Sogouwechat搜索的wechatpublic-commerchange爬虫界面可以扩展到基于Sogou搜索的爬虫,结果是列表,分别是公众号的具体信息词典。

2、douban spider [2]豆瓣阅读爬行动物。

爬豆瓣阅读标签下的所有书,按评分排名顺序保存,可以保存在Excel中,大家可以搜索,比如筛选评分人数为1000的高分书; 可以将每个主题存储在Excel的不同shell中,使用用户代理伪装成浏览器进行滚动,或者添加随机延迟以更好地模仿浏览器的行为,从而防止爬行器被困。

3、知Hu _ spider [3]知爬行动物。

这个项目的功能是了解用户信息和人的拓扑关系,爬行器框架使用scrapy,数据存储使用mongo

4、bilibili-user [4]bilibili用户爬行动物。

总数据数: 20119918,图表字段:用户id、昵称、性别、头像、级别、经验值、粉丝数、生日、地址、注册时间、签名、级别和经验值等。 然后生成Web站的用户数据报告。

5、Sina spider [5]新浪微博爬虫。

主要关注新浪微博用户的个人信息、微博信息、粉丝、关注。 代码可以获取新浪微博Cookie登录,通过多个账号登录,防止新浪反扒。 主要使用scrapy爬行器框架。

6、distribute _ crawler [6]小说下载分布式爬行动物。

使用scrapy、Redis、MongoDB、graphite实现的分布式网络爬虫、底层存储MongoDB集群、分布式Redis实现,爬虫的状态显示使用graphite实现,主要是小说网站

7、CNKI spider [7]中国知网爬行动物。

设置搜索条件后,运行src/CnkiSpider.py以捕获数据并将其保存在/data目录下。 这是每个数据文件的第一个行为字段名称。

8、连家秀pider [8]链球网爬虫。

创北京地区链家多年二手房成交记录。 涵盖链接家爬虫一文的所有代码,包括链接家的伪登录代码。

9、scrapy _ jingdong [9]京东爬行动物。

基于scrapy的京东网站爬虫,保存形式为csv。

10、QQ-groups-spider [ 10 ]QQ群爬行动物。

批量获取组名、组号、组人数、特异摩托车、组配置文件等QQ组信息,最终生成xls(x )/CSV结果文件。

11、wooyun_public[11]-乌云爬行动物。

向乌云公开漏洞、基于知识的爬虫和搜索。 所有公共漏洞列表和每个漏洞的文本内容都存在于MongoDB中,在约2G的内容即整个车站将所有文本和图像作为离线查询进行攀登时,约10G的空间、2小时(10M的通信带宽); 全部拿下知识库,共有约500M的空间。 漏洞搜索使用了Flask作为web服务器,使用了bootstrap作为前端。

12、spider [ 12 ]hao123网站爬虫。

以hao123为入口页面,滚动外链取出,收集网站,记录网站上的内链和外链数量,记录title等信息,在windows7 32的32位上测试,目前24.4

13、findtrip [ 13 ]机票爬行动物(去哪里和座位跳闸网)。

Findtrip是一种基于Scrapy的机票爬虫,目前集成了国内两大机票网站(去往何处)。

14,163 spider [ 14 ]基于requests、MySQLdb和torndb的互联网客户端内容爬虫

15、douban spiders [ 15 ]豆瓣电影、书籍、团体、专辑、物品等爬行类集

16、QQ spider [ 16 ]包括QQ空间爬虫、日志、聊天、个人信息等,一天可以抓取400万条数据。

17、Baidu-music-spider [ 17 ]百度mp3全站爬虫,使用redis支持断点续篇。

18、TB crawler [ 18 ]淘宝和天猫爬虫可以根据搜索关键词、项目id抓取页面信息,数据存储在mongodb中。

sock holm [ 19 ]一个股票数据(沪深)爬虫和选股策略测试框架。 根据选定的日期范围获取19、沪深两市所有股票的行情数据。 支持使用公式定义股票选择策略。 支持多线程处理。 将数据保存到JSON文件、CSV文件中。

20、百度云盘爬行动物[ 20 ] -。

21、Spider[21]-社交数据爬虫。 支持微博、知乎、豆瓣。

22、代理池[ 22 ]-python爬虫代理IP池(代理池)。

23、music-163[23]-获取网易云音乐所有歌曲的评论。

资料来源:全球人工智能

作者: SFLYQ

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。