PHP和Python爬虫：从基础到实战

本文将详细介绍PHP和Python爬虫的相关知识和实战技巧，为大家提供全面的学习资料。

一、爬虫基础概念

爬虫是一种程序，用于模拟人的行为，自动化地访问网络中的信息资源，不断地提取、分析、整理数据，并存储到本地或服务器上。主要用途是在网站、搜索引擎、电子商务等方面进行数据的采集和处理。

爬虫可以模拟浏览器的行为，针对不同的网站进行数据的抓取，通常分为以下几个步骤：

发送请求：通过模拟HTTP请求，向目标网站发送请求，并获取响应结果。
解析网页：通过解析HTML、JSON等格式，提取出网页中的目标数据。
存储数据：将提取出来的数据以文件、数据库等形式存储到本地或服务器上。

二、PHP爬虫

1、使用CURL发送HTTP请求

使用PHP发送HTTP请求的方式有很多种，其中比较常用的是CURL库。CURL（Client URL）是一个开源的、跨平台的、支持多种协议的网络库，它可以通过API调用完成各种网络操作，如发送HTTP请求、获取FTP文件、支持HTTPS等。


//初始化CURL
$ch = curl_init();
//设置请求地址
curl_setopt($ch, CURLOPT_URL, "http://www.example.com/");
//设置请求头部信息
curl_setopt($ch, CURLOPT_HEADER, 0);
//设置请求超时时间
curl_setopt($ch, CURLOPT_TIMEOUT, 30);
//执行请求，获取响应内容
$response = curl_exec($ch);
//关闭CURL
curl_close($ch);

2、使用正则表达式解析HTML数据

当我们获取了网页的响应结果后，需要对其中的HTML数据进行解析，通常使用正则表达式匹配的方式实现。


//获取HTML源代码
$html = file_get_contents('http://www.example.com/');
//定义正则表达式
$pattern = "/(.*?)</div>/s";
//匹配HTML代码
preg_match_all($pattern, $html, $matches);
//输出匹配结果
print_r($matches[1]);

3、存储数据到文件中

当我们成功地从网站中提取出了目标数据后，需要将数据进行持久化存储，通常使用文件、数据库等方式进行存储，下面是将数据写入到文件中的示例：


//打开文件
$file = fopen("data.txt", "w");
//将数据写入文件
fwrite($file, $data);
//关闭文件
fclose($file);

三、Python爬虫

1、使用Requests库发送HTTP请求

在Python中，发送HTTP请求可以使用Requests库，相对于CURL而言，其使用更加简洁、方便。


import requests

#发送GET请求
response = requests.get("http://www.example.com/")
#输出响应结果
print(response.text)

2、使用BeautifulSoup解析HTML数据

BeautifulSoup是Python中比较流行的解析HTML数据的库，能够很方便地实现数据的提取和处理。


from bs4 import BeautifulSoup

#获取HTML源代码
html = requests.get('http://www.example.com/').text
#解析HTML代码
soup = BeautifulSoup(html, 'html.parser')
#查找目标数据并输出
print(soup.find('div', class_='content').text)

3、存储数据到数据库中

当需要对数据进行持久化存储时，可以使用Python的数据库连接库，如MySQLdb、pymysql等。


import pymysql

#连接数据库
conn = pymysql.connect(host='localhost', port=3306, user='root', password='123456', db='test')
#创建游标对象
cursor = conn.cursor()
#执行SQL语句
cursor.execute("INSERT INTO data (title, content) VALUES (%s, %s)", ('标题', '内容'))
#提交事务
conn.commit()
#关闭游标和连接
cursor.close()
conn.close()

四、总结

本文分别介绍了PHP和Python爬虫的相关知识和实战技巧，包括发送HTTP请求、解析HTML数据、存储数据等方面，希望能对爬虫入门的同学有所帮助。