python分布式爬虫(爬虫之scrapy)

scrapy的基本使用

创建项目命令。 scrapy startproject ProName#例如，在这里创建一个名为demoPro的项目

打开# # #终端并输入：

scrapystartprojiectdemopro )。

目录结构

这里先介绍两个，之后的学习中介绍其他

` spiders `文件夹：爬虫文件夹

必须保存爬虫的源文件

` settings.py` :项目的性能分析

2 .光盘计划名称

创建项目后，必须首先进入项目目录

用# # #终端输入

cd demoPro3.用于创建爬虫源文件的命令：

scrapygenspiderspidernamewww.XXX.com

将对应的代码写入爬虫文件

其中：

- demo是爬虫源文件的名称

- -让我们自由编写网址，然后查看缺省生成的代码。

4 .执行工程

修改爬虫网站

导入脚本

classdemospider(scrapy.spider ) :

名称='德谟'

allowed _ domains=[ ' www.Baidu.com ' ]

start _ URLs=[ ' https://www.Baidu.com/'

def parse (自我，响应) :

pass执行工程命令： scrapy crawl spider名称

# #终端输入

scrapycrawldemo )。

以上是scrapy的基本操作步骤！但是，我们看到没有登上我们想要的结果，有必要设置什么吗？

是的！我们下节课学习scapy简单的爬虫配置！关注Python可靠的糖豆！多学习Python的知识！