前几天朋友问我爬行动物程序是怎么实现的,今天我要谈谈爬行动物。 我说不好,请让我听听您宝贵的意见。 今天,主要从三个部分来谈谈网络连接、爬虫原理和网页结构。
网络连接
就像在地铁自助饮料贩卖机买饮料一样。 只要买家选择需要的饮料,投入硬币(或纸币),自助饮料售货机就会排出合适的商品。 互联网连接也正是如此,如下图所示,如果本机电脑(购买者)拿着请求头、信息体(硬币和所需饮料)向服务器(本机饮料贩卖机)发出一次Requests请求),则该服务器)本机电脑相应的请求
爬虫原理
了解了网络连接的基本原理后,就能很好地理解爬行动物的原理了。 网络连接需要一次浏览器请求和服务器端响应。 爬行动物也需要两件事:
(1)模拟浏览器向服务器开始请求。
)2)接收服务器端的Response的内容,进行分析并提取必要的信息。
但是,互联网网页错综复杂,如果一次请求和响应不能批量获取网页数据,就需要设计爬虫流程。
多页网络爬虫过程跨越页面间的网络爬虫过程
网页构造
现在打开网页(http://bj.xiaozhu.com/)。 用鼠标右键单击页边距,然后从显示的快捷菜单中选择“检查”命令,即可显示网页代码,如下图所示。
分析此图时,上半部分是HTML文件,下半部分是CSS样式,用script/script标记的是JavaScript。 用户浏览的网页是浏览器渲染的结果,浏览器就像愤怒的长椅,通过翻译HTML、CSS、JavaScript获得用户使用的web界面。