这是简易数据分析系列的第八篇文章。

原文以博客园开头：简易数据分析08。

在控制网页浏览器翻页——链接批量捕获数据这篇文章中，介绍了控制网络链接批量捕获数据的方法。

但是，如果预览几个网站，随着网页的下拉，需要点击“加载更多”之类的按钮来获取数据，但网页的链接不变。

因此，控制链接批量抓取数据的方案已失效，需要在模拟中点击“加载更多”按钮以抓取更多数据。

今天，我们将讨论利用web浏览器的Element click模拟，单击“加载更多”以加载更多数据。

此次练习网站以少数派网站的热门文章为练习对象。对应的网站链接如下。

https://sspai.com/tag/热门文章#home

为了复习上一小节的内容，这次在点击翻页的同时，模拟抓住作者、标题、点赞数、评论数等多个内容。

开始我们的数据收集之路吧。

1.创建 sitmap

老规矩。首先创建少数派的sitmap。名字叫sspai_hot。第一个链接是https://sspai.com/tag/热门文章#home。

在

2.创建容器的 selector

之前的部分中，我们知道要在web scraper中捕捉多种类型的数据，首先需要创建容器“container”。第二步是为容器创建选择器，因为这个容器包含多种类型的数据。

请注意，该选择器的类型被选为Element click，翻译成中文后将模拟点击元素。正如其名，我们可以利用这种类型模拟地点击“更多加载”按钮。

这种类型的选择器有多种选择。第一个是点击选择器。这就是我选择“加载更多”按钮的原因。具体的操作可以看到下图的视频。

有几个选择，让我逐一说明。

1 .点击类型

点击的种类，click more表示多次点击。因为我们要掌握大量的数据，所以在这里选择click more。此外，还有click once选项。单击一次

2 .点击元件唯一性

此选项控制web浏览器何时停止数据检索。例如，Unique Text表示在字符发生变化时停止数据捕获。

我们都知道，一个网站的数据不是无限的。一定有加载结束的时候。那时，“加载更多”按钮的文字可能会变成“没有更多”、“没有更多数据”、“加载结束”等文字。文字发生变化时，Web scraper知道没有更多的数据，自动停止数据捕捉。

3 .多芯片

这个我们的老朋友表示是否要多选。在此捕捉多个数据。当然要打勾。

4.discard初始元素

是否放弃初始元素，这主要是为了去除一些站点的重复数据，并不太重要。这里也不能用。直接选择Never discard，不舍弃数据。

5 .延迟

延迟时间是delay等待数据加载的时间，因为单击加载后数据加载需要一段时间。一般设定为2000以上。因为延迟2s是比较合理的数据，所以在网络不好的情况下，可以设定更大的数字。

接下来，我们将创建几个子选择器，分别捕获四类数据：作者、标题、点赞数和评论数。关于详细的操作，在前面的教程中进行了说明，这里不详细说明。爬行动物整体的结构如下。请参考一下：

4 .掌握数据

可以根据Sitemap spay_hot - Scrape的操作路径捕获数据。

今天在Web Scraper上抓住了点击，学习了加载更多种类的网页。在实践过程中，你会发现这种类型的页面不能控制爬网的数量。像豆瓣TOP250一样，清晰的250个数据，不少也不少。下一篇文章将介绍如何使用Web Scraper自动控制捕获数。

建议您阅读

简易数据分析04 | Web Scraper初次体验---抓住豆瓣高分电影

简易数据分析06 |引入他人已经编写的Web Scraper爬虫的方法

简易数据分析07 | Web Scraper捕捉多个内容