python教程电子版,简述网络爬虫的工作原理

前几天朋友问我爬行动物程序是怎么实现的，今天我要谈谈爬行动物。我说不好，请让我听听您宝贵的意见。今天，主要从三个部分来谈谈网络连接、爬虫原理和网页结构。

网络连接

就像在地铁自助饮料贩卖机买饮料一样。只要买家选择需要的饮料，投入硬币(或纸币)，自助饮料售货机就会排出合适的商品。互联网连接也正是如此，如下图所示，如果本机电脑(购买者)拿着请求头、信息体(硬币和所需饮料)向服务器(本机饮料贩卖机)发出一次Requests请求)，则该服务器)本机电脑相应的请求

爬虫原理

了解了网络连接的基本原理后，就能很好地理解爬行动物的原理了。网络连接需要一次浏览器请求和服务器端响应。爬行动物也需要两件事：

(1)模拟浏览器向服务器开始请求。

)2)接收服务器端的Response的内容，进行分析并提取必要的信息。

但是，互联网网页错综复杂，如果一次请求和响应不能批量获取网页数据，就需要设计爬虫流程。

多页网络爬虫过程跨越页面间的网络爬虫过程

网页构造

现在打开网页(http://bj.xiaozhu.com/)。用鼠标右键单击页边距，然后从显示的快捷菜单中选择“检查”命令，即可显示网页代码，如下图所示。

分析此图时，上半部分是HTML文件，下半部分是CSS样式，用script/script标记的是JavaScript。用户浏览的网页是浏览器渲染的结果，浏览器就像愤怒的长椅，通过翻译HTML、CSS、JavaScript获得用户使用的web界面。