交叉分析:通常用于分析两个或两个以上,分组变量之间的变量关系,以及交叉表形式进行变量间关系的对比分析
定量、定量分组交叉
定量、定性分析交叉
定性、定性分组交叉
1 交叉统计函数
pivot_table(values,index,columns,aggfunc,fill_value)
参数说明:
values:透视表中的值
index:数据透视表中的行
columns:数据透视表中的列
aggfunc:统计函数(求和、计数、平均值)
fill_value:Na值得统一体换
2 案例
import pandas
data=pandas.read_csv(
'D:\DATA\pycase\5.4\data.csv'
)
# 分组查看
# bins 分组的划分数组
bins=[
min(data.年龄)-1,20,30,40,max(data.年龄)+1
]
# 自定义标签
import numpy
labels=[
'20岁及以下','21岁到30岁','31岁到40岁','40岁以上'
]
data['年龄分层']=pandas.cut(
data.年龄,
bins,
labels=labels
)
## 进行交叉分析
ptResult=data.pivot_table(
values=['年龄'],
index=['年龄分层'],
columns=['性别'],
aggfunc=[numpy.size]
)
### 特别注意,去掉中括号,变为如下: 否则;列标签为aggfunc、values以及colunn的组合。
正确:
ptResult=data.pivot_table(
values='年龄',
index='年龄分层',
columns='性别',
aggfunc=numpy.size
)