Python 网页文本处理指南

本文将从多个方面介绍如何使用Python处理网页文本。

一、网页文本的获取和解析

1、获取网页文本

使用Python的requests库可以方便地获取网页内容：

import requests

url = "https://www.example.com"
response = requests.get(url)
html = response.text
print(html)

2、解析网页文本

使用BeautifulSoup库可以将网页文本解析成可操作的数据结构，比如解析HTML标签：

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, "html.parser")
title = soup.title.string
print(title)

二、网页文本的清洗和处理

1、去除HTML标签

可以使用正则表达式去除网页文本中的HTML标签：

import re

clean_html = re.sub(r"<.*?>", "", html)
print(clean_html)

2、提取关键词

可以使用第三方库jieba进行网页文本的分词和提取关键词：

import jieba.analyse

keywords = jieba.analyse.extract_tags(clean_html, topK=10)
keywords_str = ', '.join(keywords)
print(keywords_str)

三、网页文本的分析和可视化

1、统计词频

可以使用Python的collections库统计网页文本中词频：

from collections import Counter

words = jieba.lcut(clean_html)
word_counts = Counter(words)
print(word_counts.most_common(10))

2、词云可视化

使用第三方库wordcloud可以生成网页文本的词云图：

from wordcloud import WordCloud
import matplotlib.pyplot as plt

wordcloud = WordCloud(width=800, height=400).generate_from_text(clean_html)
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

四、网页文本的存储和导出

1、保存为文本文件

可以使用Python的文件操作将网页文本保存为文本文件：

with open("web_text.txt", "w", encoding="utf-8") as f:
    f.write(clean_html)

2、导出为Excel或CSV文件

可以使用第三方库pandas将网页文本导出为Excel或CSV文件：

import pandas as pd

df = pd.DataFrame({'text': [clean_html]})
df.to_excel("web_text.xlsx", index=False)  # 导出为Excel文件

以上是对Python处理网页文本的一些基本方法和技巧，希望对您有所帮助。