如何安装scrapy,安装lxml

一、Scrapy安装

如果顺利，可以直接使用以下命令进行安装。

方法1 :使用pip安装： pip安装脚本。

方法2 (推荐)使用国内豆瓣源安装，速度非常快。 pip install-I https://pypi.douban.com/simple/scrapy

二、Scrapy目录结构介绍

接下来，以攀登某人知道的回答内容为例，说明Scrapy中每个目录的作用。

2.1、创建项目

在开始爬网之前，必须创建新的Scrapy项目。进入要保存代码的目录，然后运行以下命令：

脚本启动项目演示

命令将创建包含以下内容的Demo目录：

这些文件分别为：

1 ) scrapy.cfg:项目的性能分析可以立即忽略。

2 ) Demo/:项目的python模块。

3 ) Demo/items.py:项目的item文件。

Item是保存攀登数据的容器；其用法与python词典类似，它提供了其他机制来保护您免受未定义字段错误的拼写错误的影响。

可以通过创建scrapy.Item类并定义类型为scrapy.Field的类属性来定义Item，如在ORM中所做的那样。

4 ) Demo/pipelines.py:项目的pipelines文件。

Scrapy提供了pipeline模块，用于执行保存数据的操作。将在创建的Scrapy项目中自动创建Pipeline.py文件，并创建缺省的pipeline类。例如，item提取的数据可以保存在mysql数据库中。

5 ) Demo/settings.py:项目的配置文件。

settings.py是Scrapy中重要的配置文件，可以设置的内容非常多。

6 ) demo/spiders/:spider代码所在的目录。

这个很容易理解。如下图所示，在我们后面的例子中，我们爬豆瓣、微博、你知道的爬虫代码文件存储在这个文件夹下面。

7 ) Demo/middlewares.py :中间件。

参考： https://www.Jian Shu.com/p/6df 878054091