首页 > 编程知识 正文

scrapy爬虫项目计划书,爬虫python入门教程

时间:2023-05-06 00:46:37 阅读:145662 作者:3291

在本文中,您将创建一个从0到Scrapy爬行器的案例,并将结果保存为本地json格式。 其中,介绍一些文件的作用。 适合初学者一起学习入门。 语句末尾显示完全可操作的代码

一、我们打算爬的网站是:http://www.itcast.cn/channel/teacher.shtml网站上所有老师的名字、作用和信息

在浏览器中右键单击“check (检查)”或F12 (笔记本电脑需要Fn F12 )显示上述调试页面。 Google插件xpath helper推荐下载。 很容易使用。

二、创建爬行类项目创建爬行类项目指令:

脚本启动项目项目名称

您创建的项目文件夹将显示在桌面上。 第一次创建包括:

现在说明各文件的作用

scrapy.cfg :项目配置文件

spiders/我们编写的爬虫文件位于此文件夹下init.py。 通常是空文件,但必须存在。 没有__init__.py表示他所在的目录不是包

items.py :定义项目的目标文件、结构化字段,并保存爬网数据

middlewares.py :项目中间件

pipelines.py :工程管道文件

setting.py :项目配置文件

2 .进入刚创建爬行器文件的项目(cd ITcast ) )。

创建爬行器文件的命令是以下:

scrapy genspider文件名(在此写入我们的爬行器代码) )。

刚创建的文件itcast.py显示在spider文件夹下

items.py创建此文件以定义爬网的具体内容。 这相当于数据库中的字段或java中的Pojo类。

importscrapyclassitcastitem (scrapy.item ) : # definethefieldsforyouritemherelike 3360 #老师的名字name=scrapy.Field ) #老师老师信息info=scrapy.Field ) ) setting.py将此文件设置为配置文件,并将文件内容更改如下:

首先,因为它是用于学习的,所以可以不遵循robots.txt协议,所以找到并修改ROBOTSTXT_OBEY

ROBOTSTXT_OBEY=False,然后删除ITEM_PIPELINES注释

item _ pipelines={ ' teacher.pipelines.teacher pipeline ' 3360300,}通过对False的修改和取消注释,我们的部署已经完成。

5.itcast.pyimportscrapyfromitcast.itemsimportitcastitemclassitcastspider (scrapy.spider ) : #爬虫名称启动爬虫时所需的参数爬行器可以在此域下启动任何allowed _ domains=[ ' http://www.itcast.cn ' ] #的url列表,并在爬行器运行后发出第一个请求。 从该列表中选择start _ URLs=[ ' http://www.itcast.cn/channel/teacher.shtml ' ] #分析响应文件//div[@class='li_txt'] div ) class='Li_txt ' ) ) items=[] #用于存储所有item字段的fornodeinnoode信息的item=itcast item (名称=node . extract(#请注意,这里返回的不是文本,而是xpath对象。 ) xpath对象必须在. extrac )中转换为Unicode字符串item (' name=name [0] item ) ) title ) cmd命令为以下:

scrapy crawl项目名称-o项目名称. json

这里我的命令是: scrapycrawlitcast-OIT cast.JSON

这里也可以用csv格式保存。 scrapy crawl项目名称-o项目名称. csv

在这里,您可以看到爬网的信息是json格式的,并且itcast.json本地文件出现在spider文件夹下。

在此打开itcast.json文件,可以看到格式是用Unicode编码的。

需要确认json转换器。 点击json在线分析https://www.json.cn/,通过复制即可进行分析。

这样,scrapy的爬网工作就完成了!

一波福利,scrapy入门视频: https://www.bilibili.com/video/b v1 JX 411 b 7e 3

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。