在数据分析、数据挖掘和机器学习等领域,CSV文件是一种非常常见的文件格式。Python作为一种广泛使用的编程语言,也提供了方便易用的CSV读取库。本文将介绍如何使用Python读取CSV数据。
1. 安装CSV库
Python的官方CSV库名为csv,它已经随Python安装包一起发布。在使用之前,我们需要先导入这个库。
import csv
在一些特殊情况下,我们可能需要使用第三方的CSV库,比如pandas库、numpy库等。这些库都拥有更多的功能和更为灵活的操作方式。
2. 读取CSV文件
接下来我们要读取一个CSV文件。假设我们有一个叫做data.csv的文件,里面包含了一些学生成绩的信息。文件的内容如下:
name,math_score,english_score
Alice,90,80
Bob,75,85
Charlie,80,90
Daisy,95,95
代码示例:
with open('data.csv', newline='', encoding='utf-8') as csvfile:
reader = csv.reader(csvfile)
for row in reader:
print(row)
运行结果:
['name', 'math_score', 'english_score']
['Alice', '90', '80']
['Bob', '75', '85']
['Charlie', '80', '90']
['Daisy', '95', '95']
代码解释:
- 我们使用了Python内置的with语句打开了一个名为data.csv的文件,并指定编码方式为utf-8。
- 接下来,我们使用csv.reader()函数创建了一个reader对象。
- 我们通过一个for循环,逐行读取CSV文件中的内容,并打印每一行的内容。
3. 常用参数
在读取CSV文件时,csv.reader()函数有许多可选参数,供我们自定义读取的方式和规则
- delimiter:指定CSV文件中的分隔符,默认为逗号(,)
- quotechar:指定CSV文件中的引号字符,默认为双引号(")
- lineterminator:指定CSV文件中的行结束符,默认为'rn'
- skipinitialspace:指定是否忽略每个字段前面的空格,默认为False
代码示例:
with open('data.csv', newline='', encoding='utf-8') as csvfile:
reader = csv.reader(csvfile, delimiter='t')
for row in reader:
print(row)
运行结果:
['name,math_score,english_score']
['Alice,90,80']
['Bob,75,85']
['Charlie,80,90']
['Daisy,95,95']
代码解释:
- 我们在csv.reader()函数中指定了delimiter参数为制表符('t')
- Csv.reader()函数便会将文件内容按制表符为分隔符进行读取。
4. 操作CSV数据
读取CSV文件只是我们使用CSV库的一个方面,我们还能够进行数据的增删改查等各种操作。虽然csv库内置的操作比较简单,但是通过一些手动操作,我们依然能够实现一些很有趣的功能。
代码示例:
with open('data.csv', 'r', encoding='utf-8') as csvfile:
rows = list(csv.reader(csvfile))
# 在最后一行增加一条记录
rows.append(['Ella', '85', '95'])
# 更新第二行的数据
rows[1][2] = '90'
# 删除第三行
del rows[2]
# 将修改后的数据保存至新文件
with open('new_data.csv', 'w', newline='', encoding='utf-8') as csvfile:
writer = csv.writer(csvfile)
writer.writerows(rows)
- 我们读取了原始的CSV数据,并将其存储在rows列表中。
- 我们使用列表的append()函数在第4行末尾添加了一条新记录(['Ella', '85', '95'])。
- 我们使用列表的索引和下标来修改第二行的数据('Bob'的英文成绩由85改为90)。
- 我们使用del语句删除了第三行数据(Charlie的成绩记录)。
- 最后,我们使用csv.writer()函数,将修改之后的数据写入一个新的CSV文件new_data.csv中。
5. 总结
使用csv库读取和操作CSV文件非常简单,但是一旦进行了一些稍微复杂的操作,就会遇到一些问题。这时候可以考虑使用pandas库来进行数据的读取和处理。pandas库在数据的读取、过滤、分组、转换等方面都提供了非常方便的工具。