首页 > 编程知识 正文

pandas库的详细介绍,vba使用pandas库

时间:2023-05-05 15:36:45 阅读:239854 作者:2578

介绍

Pandas是提供高性能易用数据类型和分析工具。
常使用的导入方式import pandas as pd
pandas基于numpy实现,常与numpy和matplotlib一同使用。

两个数据类型:Series,DataFrame
基于上述数据类型的各类操作,基本操作、运算操作、特征类操作、关联类操作。

numpy:基础数据类型,关注数据的结构表达,维度是数据间的关系。
pandas:扩展数据类型,关注数据的应用表达,数据与索引间关系。

Series类型

Series类型由一组数据及与之相关的数据索引组成。

import pandas as pda = pd.Series([9,8,7,6])print(a)

import pandas as pda = pd.Series([9,8,7,6],index=['a','b','c','d']) #自动索引print(a)

可创建Series的类型:

python列表python字典标量值ndarray其他函数

基于ipython的交互环境

字典类型的创建
从ndarray类型创建

Series类型

Series类型可以创建的类型:- Python列表,index与列表元素个数一致- 标量值,index表达Series类型的尺寸- Python字典,键值对中的“键”是索引,index从字典中进行选择操作- ndarray,索引和数据都可以通过ndarray类型创建- 其他函数,range()函数等

Series类型的基本操作
Series类型包括index和values两部分,操作可以类似ndarray和python字典类型。


.index 获得索引。.values 获得数据。

Series类型的操作类似ndarray类型:- 索引方法相同,采用[]- NumPy中运算和操作可用于Series类型- 可以通过自定义索引的列表进行切片- 可以通过自动索引进行切片,如果存在自定义索引,则一同被切片

Series类型的操作类似Python字典类型:- 通过自定义索引访问- 保留字in操作- 使用.get()方法


对齐操作
Series类型在运算中会自动对齐不同索引的数据

Series对象和索引都可以有一个名字,存储在属性.name中

Series对象可以随时修改并即刻生效

Series是一维带 标签 数组,基本操作类似ndarray和字典,根据索引对齐。

DataFrame类型

DataFrame类型由共用相同索引的一组列组成。
DataFrame是一个表格型的数据类型,每列值类型可以不同。
DataFrame既有行索引、也有列索引。
DataFrame常用于表达二维数据,但可以表达多维数据。

DataFrame类型可以由如下类型创建:

二维ndarray对象由一维ndarray、列表、字典、元组或Series构成的字典Series类型其他的DataFrame类型

从二维ndarray对象创建

从一维ndarray对象字典创建

从列表类型的字典创建

DataFrame是二维带“标签”数组,基本操作类似Series,依据行列索引。

pandas库的数据类型操作

改变Series和DataFrame对象,增加或重排,重新索引,删除drop。
.reindex()能够改变或重排Series和DataFrame索引

.reindex(index=None, columns=None, …)的参数参数index, columns 新的行列自定义索引fill_value 重新索引中,用于填充缺失位置的值method 填充方法,ffill当前值向前填充,bfill向后填充limit 最大填充copy 默认True ,生成新的对象,False时,新旧相等不复制

Series和DataFrame的索引是Index类型,Index对象是不可修改类型

索引类型常用的方法.append(idx) 连接另一个Index对象,产生新的Index对.diff(idx) 计算差集,产生新的index对象.intersection(idx) 计算交集.union(idx) 计算并集.delete(loc) 删除loc位置处的元素.insert(loc,e) 在loc位置增加一个元素e

.drop()能够删除Series和DataFrame指定行或列索引

数据类型运算

算数运算法则
算术运算根据行列索引,补齐后运算,运算默认产生浮点数
补齐时缺项填充NaN (空值)
二维和一维、一维和零维间为广播运算
采用+‐*/符号进行的二元运算产生新的对象

算数运算
方法形式的运算方法.add(d, **argws) 类型间加法运算,可选参数.sub(d, **argws) 类型间减法运算,可选参数.mul(d, **argws) 类型间乘法运算,可选参数.div(d, **argws) 类型间除法运算,可选参数


比较运算
比较运算只能比较相同索引的元素,不进行补齐
二维和一维、一维和零维间为广播运算
采用 >< >= <= == !=等符号进行的二元运算产生布尔对象

Series = 索引 + 一维数据
DataFrame = 行列索引 + 二维数据

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。