首页 > 编程知识 正文

易语言编写网页采集爬虫教程,领克02改装案例

时间:2023-05-04 06:04:45 阅读:145660 作者:1363

制作项目的我在pycharm上开发。 打开pycharm,在下面的" Terminal "中输入命令" scrapy startproject freebuf "。 这句话是在你的工作区创建一个名为“freebuf”的scrapy项目。 下图:

在上图中,第一次创建失败,因为我的工作区中已经存在“freebuf”。 这里我创建的名字是“freebuf2”,创建成功。 freebuf2的目录和说明如下。

创建爬行器freebuf2Spider.py,选择spiders文件夹,右键单击new-python file,输入文件名freebuf2Spider,然后添加代码如下图所示。

# coding : utf-8 importscrapyfromfreebuf2. itemsimportfreebuf2itemimporttimefromscrapy.crawlerimportcrawlerprocessclasfrasffref wed _ domains=[ ] start _ URLs=[ ' http://www.freebuf.com/' ] def parse (self,response (: forlinkinresponse.) ' news_inner news-list ' ) ]/div/a/@Hrrast我用协和式(中断执行)理解,所以我觉得很容易理解。 next_URL=response.XPath(/div ) @class='news-more ' )/a/@href ' ).extract ) #找到以下链接,即翻页if next _ URL : yields crapy.request (next _ URL [0],callback=self.parse ) defparse_next ) self, response (: item=freebuf2item (item ) ) title )=response.XPath ) (/H2/text ) () ) (extract ) ) )

item.py

itmes对象是一个简单的容器,可以理解为dict。 正在保存获取的数据。 代码如下。

importscrapyclassfreebuf2item (scrapy.item ) : # definethefieldsforyouritemherelike 3360 # name=scrapy.field ) titite

学习优雅的爬行动物代码完成了简单的翻页爬行动物,但这是为了创造优雅的爬行动物。 必须设置访问间隔,并将DOWNLOAD_DELAY=3添加到settings.py中。 意思是,请每3秒。

是的,大功告成了。 在pycharm的“terminal”(也可以是cmd )下,切换到freebuf2项目目录下(第一个freebuf2文件夹),然后单击“scrapycrawlfreebuf2- ofreebuf 2” 可以执行。 想要停止的话,直接输入“shutdown”就可以了。 最后看看数据吧。

数据:

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。