Python英文词频统计

本文将详细介绍如何使用Python统计英文文本中的词频。

一、读取文本文件

在进行词频统计之前，我们需要先读取要处理的英文文本文件。可以使用Python的文件操作函数进行读取，如下所示：

with open('text.txt', 'r') as file:
    text = file.read()

在进行词频统计之前，需要对文本数据进行预处理，包括去除标点符号、转换为小写等操作。以下是一个预处理的示例代码：

import re

# 去除标点符号
text = re.sub(r'[^ws]', '', text)

# 转换为小写
text = text.lower()

使用Python的collections模块中的Counter类可以很方便地统计词频。以下是一个简单的词频统计示例：

from collections import Counter

# 分词
words = text.split()

# 统计词频
word_freq = Counter(words)

得到词频统计结果后，我们可以按照一定的格式展示出来。以下是一个简单的展示示例：

for word, freq in word_freq.most_common():
    print(word, freq)

以上就是使用Python进行英文词频统计的基本过程。通过读取文本、数据预处理、词频统计和结果展示，我们可以快速准确地统计出英文文本中的词频情况。