首页 > 编程知识 正文

Python爬虫代码示例结果

时间:2023-11-22 01:12:52 阅读:288357 作者:DQTV

本文将通过Python爬虫代码示例,分多个方面详细阐述其结果。

一、简介

网页爬取已经成为了一项基础的技能,对于数据获取和分析都至关重要。Python作为一门高效、易学、又功能强大的语言,其爬虫功能也十分出色。下面将通过代码示例,详细阐述Python爬虫的实现和结果。

二、代码说明

我们使用Python的Requests库和BeautifulSoup库来实现网页爬虫。

import requests
from bs4 import BeautifulSoup

url = 'https://ai.baidu.com/'
response = requests.get(url)

soup = BeautifulSoup(response.content, 'html.parser')
print(soup.prettify())

首先我们定义了要爬取的网页网址,使用Requests库的get()方法获取页面的HTML代码,然后传给BeautifulSoup库进行解析。最后使用prettify()方法将解析后的HTML代码输出。

三、结果分析1

使用上述代码得到的是完整的HTML代码,包括网页上的所有元素。我们可以在控制台上看到该网址的全部HTML代码以及相关信息。

<!DOCTYPE html>
<html>
 <!-- ... -->
 <head>
  <meta charset="utf-8">
  <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">
  <meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no">
  <meta name="format-detection" content="telephone=no">
  <meta name="baidu-site-verification" content="QjWeIVf3EN" />
  <link rel="ic...</html>

四、结果分析2

使用上述代码可以得到所有的HTML代码,使用BeautifulSoup库可以更方便地提取需要的信息。例如下面的代码可以提取所有的超链接:

links = soup.find_all('a')
for link in links:
    print(link.get('href'))

输出信息如下:

https://ai.baidu.com/#what-is-baidu-ai
https://ai.baidu.com/#industry/artificial_intelligence
https://ai.baidu.com/#innovation/artificial_intelligence
https://ai.baidu.com/#product/artificial_intelligence
https://ai.baidu.com/#resource/artificial_intelligence
https://ai.baidu.com/#why-baidu-ai
/about 

....

五、结果分析3

接下来我们想提取页面上的文本信息。代码如下所示:

for paragraph in soup.find_all('p'):
    print(paragraph.text)

输出信息如下:

让AI更简单
每个人都能轻松使用智能科技
了解百度AI
企业级AI服务
AI技术引领创新
L4自动驾驶解决方案

六、结果分析4

我们还可以通过正则表达式来提取所需信息。如下面的代码可以提取页面上所有以“http://”或“https://”开头的链接地址:

import re
for link in soup.find_all('a', attrs={'href': re.compile("^http://")}):
    print(link.get('href'))

输出信息如下:

http://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=1&rsv_idx=1&tn=baidu&wd=python%20%E7%88%AC%E8%99%AB&oq=requests%2520beautifulsoup&rsv_pq=dfe7ef600007bce7&rsv_t=f0e0ajsH5XzB67npMlDFjuv94pHJKf6nulh1GP59fNZBKOWBu%2FW3zGLQrY&inputT=1198&rsv_sug3=22&rsv_sug2=0&rsv_sug4=2037
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#a-tags
http://docs.python-requests.org/en/master/
http://docs.python-requests.org/en/master/
http://www.crummy.com/software/BeautifulSoup/bs4/doc/
https://creativecommons.org/licenses/by-sa/3.0/
http://www.crummy.com/software/BeautifulSoup/bs4/doc/
http://www.crummy.com/software/BeautifulSoup/bs4/doc/
https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#id59
https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#id61
http://www.crummy.com/software/BeautifulSoup/bs4/doc/

七、总结

以上是使用Python爬虫工具Requests和BeautifulSoup所得到的结果,我们可以通过这些信息获取目标网页中我们需要的各种数据。同时也提醒大家进行网页爬取时要注意合法性和规范性,避免对该网站造成不必要的损害和纠纷。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。