首页 > 编程知识 正文

翻页画用什么纸(翻页手绘)

时间:2023-05-06 15:37:04 阅读:89280 作者:4733

这是简易数据分析系列的第八篇文章。

原文以博客园开头:简易数据分析08。

在控制网页浏览器翻页——链接批量捕获数据这篇文章中,介绍了控制网络链接批量捕获数据的方法。

但是,如果预览几个网站,随着网页的下拉,需要点击“加载更多”之类的按钮来获取数据,但网页的链接不变。

因此,控制链接批量抓取数据的方案已失效,需要在模拟中点击“加载更多”按钮以抓取更多数据。

今天,我们将讨论利用web浏览器的Element click模拟,单击“加载更多”以加载更多数据。

此次练习网站以少数派网站的热门文章为练习对象。 对应的网站链接如下。

https://sspai.com/tag/热门文章#home

为了复习上一小节的内容,这次在点击翻页的同时,模拟抓住作者、标题、点赞数、评论数等多个内容。

开始我们的数据收集之路吧。

1.创建 sitmap

老规矩。 首先创建少数派的sitmap。 名字叫sspai_hot。 第一个链接是https://sspai.com/tag/热门文章#home。

2.创建容器的 selector

之前的部分中,我们知道要在web scraper中捕捉多种类型的数据,首先需要创建容器“container”。 第二步是为容器创建选择器,因为这个容器包含多种类型的数据。

请注意,该选择器的类型被选为Element click,翻译成中文后将模拟点击元素。 正如其名,我们可以利用这种类型模拟地点击“更多加载”按钮。

这种类型的选择器有多种选择。 第一个是点击选择器。 这就是我选择“加载更多”按钮的原因。 具体的操作可以看到下图的视频。

有几个选择,让我逐一说明。

1 .点击类型

点击的种类,click more表示多次点击。 因为我们要掌握大量的数据,所以在这里选择click more。 此外,还有click once选项。 单击一次

2 .点击元件唯一性

此选项控制web浏览器何时停止数据检索。 例如,Unique Text表示在字符发生变化时停止数据捕获。

我们都知道,一个网站的数据不是无限的。 一定有加载结束的时候。 那时,“加载更多”按钮的文字可能会变成“没有更多”、“没有更多数据”、“加载结束”等文字。 文字发生变化时,Web scraper知道没有更多的数据,自动停止数据捕捉。

3 .多芯片

这个我们的老朋友表示是否要多选。 在此捕捉多个数据。 当然要打勾。

4.discard初始元素

是否放弃初始元素,这主要是为了去除一些站点的重复数据,并不太重要。 这里也不能用。 直接选择Never discard,不舍弃数据。

5 .延迟

延迟时间是delay等待数据加载的时间,因为单击加载后数据加载需要一段时间。 一般设定为2000以上。 因为延迟2s是比较合理的数据,所以在网络不好的情况下,可以设定更大的数字。

3.创建子选择器

接下来,我们将创建几个子选择器,分别捕获四类数据:作者、标题、点赞数和评论数。 关于详细的操作,在前面的教程中进行了说明,这里不详细说明。 爬行动物整体的结构如下。 请参考一下:

4 .掌握数据

可以根据Sitemap spay_hot - Scrape的操作路径捕获数据。

今天在Web Scraper上抓住了点击,学习了加载更多种类的网页。 在实践过程中,你会发现这种类型的页面不能控制爬网的数量。 像豆瓣TOP250一样,清晰的250个数据,不少也不少。 下一篇文章将介绍如何使用Web Scraper自动控制捕获数。

建议您阅读

简易数据分析04 | Web Scraper初次体验---抓住豆瓣高分电影

简易数据分析06 |引入他人已经编写的Web Scraper爬虫的方法

简易数据分析07 | Web Scraper捕捉多个内容

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。