首页 > 编程知识 正文

Python中的DataFrame

时间:2023-11-19 17:49:42 阅读:305573 作者:ZUAN

Python中的DataFrame是一种非常常用的数据结构,它以表格的形式存储数据,并且提供了丰富的功能和方法来进行数据操作和分析。

一、DataFrame简介

DataFrame是Pandas库中的一个重要组件,它是一种二维表结构,每一列可以是不同的数据类型(整数、浮点数、字符串等),类似于Excel中的电子表格。DataFrame可以通过读取外部文件、数据库查询、手动构建等方式创建。

在使用DataFrame之前,我们需要先导入Pandas库:

import pandas as pd

接下来,我们可以通过不同的方式创建DataFrame。例如,通过传入一个字典来创建:

data = {'名字': ['张三', '李四', '王五'],
        '年龄': [20, 25, 30],
        '城市': ['北京', '上海', '广州']}
df = pd.DataFrame(data)
print(df)

运行结果如下:

   名字  年龄  城市
0  张三  20  北京
1  李四  25  上海
2  王五  30  广州

我们可以看到,DataFrame以表格的形式展示了数据,每个列的名称由字典的键决定,而每个列的数据由字典的值决定。

二、DataFrame的基本操作

DataFrame提供了丰富的方法来进行数据操作和分析。下面我们将介绍一些常用的操作。

1、数据查看

我们可以使用head()方法来查看DataFrame的前几行数据:

print(df.head(2))

运行结果如下:

   名字  年龄  城市
0  张三  20  北京
1  李四  25  上海

可以通过传入参数指定查看的行数,这里我们查看前2行。

2、列操作

我们可以通过列的名称来访问和操作DataFrame中的数据。

例如,我们可以通过DataFrame的列名称来获取指定列的数据:

print(df['名字'])

运行结果如下:

0    张三
1    李四
2    王五
Name: 名字, dtype: object

我们也可以通过新增一列的方式来添加新的数据:

df['性别'] = ['男', '男', '女']
print(df)

运行结果如下:

   名字  年龄  城市 性别
0  张三  20  北京  男
1  李四  25  上海  男
2  王五  30  广州  女

我们通过新增一列‘性别’来添加了新的数据。

3、行操作

除了列操作,DataFrame还提供了行操作的方法。

通过指定位置索引,可以获取到指定行的数据:

print(df.loc[0])

运行结果如下:

名字    张三
年龄    20
城市    北京
性别     男
Name: 0, dtype: object

我们也可以通过新增一行的方式来添加新的数据:

new_data = {'名字': '赵六', '年龄': 35, '城市': '深圳', '性别': '男'}
df = df.append(new_data, ignore_index=True)
print(df)

运行结果如下:

   名字  年龄  城市 性别
0  张三  20  北京  男
1  李四  25  上海  男
2  王五  30  广州  女
3  赵六  35  深圳  男

我们通过新增一行的方式来添加了新的数据。

4、数据筛选

对于较大的DataFrame,我们可能需要根据某些条件来筛选出我们所需的数据。

例如,我们可以使用条件筛选来选择年龄大于25岁的数据:

df_filter = df[df['年龄'] > 25]
print(df_filter)

运行结果如下:

   名字  年龄  城市 性别
2  王五  30  广州  女
3  赵六  35  深圳  男

我们可以看到,筛选出了年龄大于25岁的数据。

三、总结

Python中的DataFrame是一种非常强大的数据结构,它提供了丰富的功能和方法来进行数据操作和分析。在数据处理和分析的过程中,DataFrame可以帮助我们更加方便地进行数据处理、整理和统计,极大地提高了我们的工作效率。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。