一、Scrapy安装
如果顺利,可以直接使用以下命令进行安装。
方法1 :使用pip安装: pip安装脚本。
方法2 (推荐)使用国内豆瓣源安装,速度非常快。 pip install-I https://pypi.douban.com/simple/scrapy
二、Scrapy目录结构介绍
接下来,以攀登某人知道的回答内容为例,说明Scrapy中每个目录的作用。
2.1、创建项目
在开始爬网之前,必须创建新的Scrapy项目。 进入要保存代码的目录,然后运行以下命令:
脚本启动项目演示
命令将创建包含以下内容的Demo目录:
这些文件分别为:
1 ) scrapy.cfg:项目的性能分析可以立即忽略。
2 ) Demo/:项目的python模块。
3 ) Demo/items.py:项目的item文件。
Item是保存攀登数据的容器; 其用法与python词典类似,它提供了其他机制来保护您免受未定义字段错误的拼写错误的影响。
可以通过创建scrapy.Item类并定义类型为scrapy.Field的类属性来定义Item,如在ORM中所做的那样。
4 ) Demo/pipelines.py:项目的pipelines文件。
Scrapy提供了pipeline模块,用于执行保存数据的操作。 将在创建的Scrapy项目中自动创建Pipeline.py文件,并创建缺省的pipeline类。 例如,item提取的数据可以保存在mysql数据库中。
5 ) Demo/settings.py:项目的配置文件。
settings.py是Scrapy中重要的配置文件,可以设置的内容非常多。
6 ) demo/spiders/:spider代码所在的目录。
这个很容易理解。 如下图所示,在我们后面的例子中,我们爬豆瓣、微博、你知道的爬虫代码文件存储在这个文件夹下面。
7 ) Demo/middlewares.py :中间件。
参考: https://www.Jian Shu.com/p/6df 878054091