python最简单的小爬虫,python的框架

python爬行动物一般使用什么框架？虽然有很多框架可以使用python爬行器，但通常只有在有较大需求时才使用python爬行器框架。

Scrapy :为检索网站数据和提取结构性数据而创建的APP应用程序框架。适用于数据挖掘、信息处理或历史数据存储等一系列程序。一个强大的爬行动物框架，可以爬简单的页面。

Crawley :可以快速滚动相应网站的内容，支持关系数据库和非关系数据库，并将数据导出到JSON、XML等。

Portia :开源可视化爬虫工具。用户不需要编程知识就可以访问网站，轻松评论感兴趣的页面，并制作从类似页面提取数据的蜘蛛。

newspaper :可用于提取新闻、文章和内容分析。使用多线程，支持10多种语言。

python-goose :可以提取的信息包括文章正文的内容、文章的主要图像、文章中嵌入的Youtube/Vimeo视频、元描述和元标记。

Beautiful Soup :它很有名，整合了常用爬行动物的需求。 Python库，可以从HTML或XML文件中提取数据。

资料来源： 51CTO

作者：老男孩资讯科技

链接： https://blog.51cto.com/14596632/2520267