首页 > 编程知识 正文

python分布式爬虫(爬虫之scrapy)

时间:2023-05-04 04:24:54 阅读:94381 作者:4836

scrapy的基本使用

创建项目命令。 scrapy startproject ProName#例如,在这里创建一个名为demoPro的项目

打开# # #终端并输入:

scrapystartprojiectdemopro )。

目录结构

这里先介绍两个,之后的学习中介绍其他

` spiders `文件夹:爬虫文件夹

必须保存爬虫的源文件

` settings.py` :项目的性能分析

2 .光盘计划名称

创建项目后,必须首先进入项目目录

用# # #终端输入

cd demoPro3.用于创建爬虫源文件的命令:

scrapygenspiderspidernamewww.XXX.com

将对应的代码写入爬虫文件

其中:

- demo是爬虫源文件的名称

- -让我们自由编写网址,然后查看缺省生成的代码。

4 .执行工程

修改爬虫网站

导入脚本

classdemospider(scrapy.spider ) :

名称='德谟'

allowed _ domains=[ ' www.Baidu.com ' ]

start _ URLs=[ ' https://www.Baidu.com/'

def parse (自我,响应) :

pass执行工程命令: scrapy crawl spider名称

# #终端输入

scrapycrawldemo )。

以上是scrapy的基本操作步骤! 但是,我们看到没有登上我们想要的结果,有必要设置什么吗?

是的! 我们下节课学习scapy简单的爬虫配置! 关注Python可靠的糖豆! 多学习Python的知识!

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。