python爬b站番剧（爬爬娘）

本文目录一览：

如果你要的数据量很小的话，python2自带的urllib2写爬虫就可以，如果你要的数据量比较大，就需要专门的爬虫框架scrapy了。

一个爬虫，你首先要分析你要爬取的网页的页面结构，也就是你需要知道在DOM树种你要的元素在哪，然后用能操作DOM的包，比如beautifulsoup或者xpath等，解析DOM，获取你想要的值，然后保存起来

你的错误提示并没有看到具体是代码中哪一行，但从提示来看，是因为某个对象没有正常获得数据，他们值是一个None，所以需要提前对color进行检测。

链接：

提取码：2b6c

课程简介

毕业不知如何就业？工作效率低经常挨骂？很多次想学编程都没有学会？

Python 实战：四周实现爬虫系统，无需编程基础，二十八天掌握一项谋生技能。

带你学到如何从网上批量获得几十万数据，如何处理海量大数据，数据可视化及网站制作。

课程目录

开始之前，魔力手册 for 实战学员预习

第一周：学会爬取网页信息

第二周：学会爬取大规模数据

第三周：数据统计与分析

第四周：搭建 Django 数据可视化网站

......

403是禁止访问，就是服务器不让你访问他的网站。

爬B站需要添加虚拟的浏览器信息，让服务器以为你是真人而不是解析器。

这些内容是通过异步接口返回的，前端页面上当然没有，你需要去请求后端对应的接口。