易语言编写网页采集爬虫教程,领克02改装案例

制作项目的我在pycharm上开发。打开pycharm，在下面的" Terminal "中输入命令" scrapy startproject freebuf "。这句话是在你的工作区创建一个名为“freebuf”的scrapy项目。下图：

在上图中，第一次创建失败，因为我的工作区中已经存在“freebuf”。这里我创建的名字是“freebuf2”，创建成功。 freebuf2的目录和说明如下。

创建爬行器freebuf2Spider.py，选择spiders文件夹，右键单击new-python file，输入文件名freebuf2Spider，然后添加代码如下图所示。

# coding : utf-8 importscrapyfromfreebuf2. itemsimportfreebuf2itemimporttimefromscrapy.crawlerimportcrawlerprocessclasfrasffref wed _ domains=[ ] start _ URLs=[ ' http://www.freebuf.com/' ] def parse (self，response (: forlinkinresponse.) ' news_inner news-list ' ) ]/div/a/@Hrrast我用协和式(中断执行)理解，所以我觉得很容易理解。 next_URL=response.XPath(/div ) @class='news-more ' )/a/@href ' ).extract ) #找到以下链接，即翻页if next _ URL : yields crapy.request (next _ URL [0]，callback=self.parse ) defparse_next ) self， response (: item=freebuf2item (item ) ) title )=response.XPath ) (/H2/text ) () ) (extract ) ) )

item.py

itmes对象是一个简单的容器，可以理解为dict。正在保存获取的数据。代码如下。

importscrapyclassfreebuf2item (scrapy.item ) : # definethefieldsforyouritemherelike 3360 # name=scrapy.field ) titite

学习优雅的爬行动物代码完成了简单的翻页爬行动物，但这是为了创造优雅的爬行动物。必须设置访问间隔，并将DOWNLOAD_DELAY=3添加到settings.py中。意思是，请每3秒。

是的，大功告成了。在pycharm的“terminal”(也可以是cmd )下，切换到freebuf2项目目录下(第一个freebuf2文件夹)，然后单击“scrapycrawlfreebuf2- ofreebuf 2” 可以执行。想要停止的话，直接输入“shutdown”就可以了。最后看看数据吧。

数据：