首页 > 编程知识 正文

python教程电子版,简述网络爬虫的工作原理

时间:2023-05-06 04:03:06 阅读:24480 作者:4078

前几天朋友问我爬行动物程序是怎么实现的,今天我要谈谈爬行动物。 我说不好,请让我听听您宝贵的意见。 今天,主要从三个部分来谈谈网络连接、爬虫原理和网页结构。

网络连接

就像在地铁自助饮料贩卖机买饮料一样。 只要买家选择需要的饮料,投入硬币(或纸币),自助饮料售货机就会排出合适的商品。 互联网连接也正是如此,如下图所示,如果本机电脑(购买者)拿着请求头、信息体(硬币和所需饮料)向服务器(本机饮料贩卖机)发出一次Requests请求),则该服务器)本机电脑相应的请求

爬虫原理

了解了网络连接的基本原理后,就能很好地理解爬行动物的原理了。 网络连接需要一次浏览器请求和服务器端响应。 爬行动物也需要两件事:

(1)模拟浏览器向服务器开始请求。

)2)接收服务器端的Response的内容,进行分析并提取必要的信息。

但是,互联网网页错综复杂,如果一次请求和响应不能批量获取网页数据,就需要设计爬虫流程。

多页网络爬虫过程跨越页面间的网络爬虫过程

网页构造

现在打开网页(http://bj.xiaozhu.com/)。 用鼠标右键单击页边距,然后从显示的快捷菜单中选择“检查”命令,即可显示网页代码,如下图所示。

分析此图时,上半部分是HTML文件,下半部分是CSS样式,用script/script标记的是JavaScript。 用户浏览的网页是浏览器渲染的结果,浏览器就像愤怒的长椅,通过翻译HTML、CSS、JavaScript获得用户使用的web界面。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。