yjfdhm学会发现用Python爬虫,想得到某个数据,就不用再自己找了。 今天,小千介绍了一个很实用的爬行动物案例,拿到了Boss直聘的招聘信息,同学们一起学习。
Boss直聘爬虫案例这次以北京地区的销售人员为案例,打开了Boss直聘搜索【销售】,很遗憾Boss直聘的逆登措施无法直接使用requests库获取信息,所以通过webdriver自动化方式进行web资源的获取
使用web驱动程序需要配置pip 3安装selenium和chrome浏览器的chrome驱动程序。
单击多个页面后,地址栏中的地址发生了以下变化:
于是我发现了地址的规则变化。 因此,代码如下所示。
如果此时运行代码,则可以看到htmls_list中有很多数据。 这样我就放心了。 我们已经取得了网页的数据。 有数据时开始遍历htmls_list。 htmls_list中存储了多页数据,因此一页一页地获取并提取中的职位和工资等信息。 提取的过程使用了BeautifulSoup。 具体的使用说明不在此说明。
使用BeautifulSoup提取的所有数据都存储在名为job_list=[]的列表中。 页面分析如下。
这样,我们都可以找到对应的标签。
以上是Python取得boss直聘上的职场信息的过程介绍。 最后欢迎对Python开发感兴趣的合作伙伴关注千先生,后期与多款Python分享技术知识!