各种税率种类归纳,三角形各种心的性质归纳

前言

在近期的数据处理实战中，虽然自己已经算是系统入门过pandas，但用起来还是没有那么得心应手，

指令 df.apply

DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwds)
功能
对行或列使用函数
介绍
第一个参数func代表的是函数，可以理解为C/C++的函数指针。我们可以传入自己定义的函数来实现一些自己想要的功能（lambda函数和别的库的函数当然也可以）
第二个参数axis代表行列，理解方式之前的博客有提到过，拿二维数据举例子：[row, col]，axis = 0代表list里面的第零个值，二维中就是行；axis = 1代表list里面的第一个值，二维中就是列。
第三个参数raw决定了是通过Series还是ndarray的形式传递行或列。False表示Series，True表示ndarray
第四个参数只在列（axis=1）起作用，它决定了返回值是哪种方式，有{‘expand’, ‘reduce’, ‘broadcast’, None}备选
第五个参数args代表给第一个参数func传入的位置参数，args的类型是tuple
例子：

# 实现批量添加新的空列df[['经纬度','气温（℃）','天气','风速（m/s）','相对湿度（%）','备注']] = df.apply(lambda x: ('','','','','',''), axis=1, result_type='expand') df.duplicated

DataFrame.duplicated(subset=None, keep='first')
功能
返回一个布尔类型的Series来标注重复的行
介绍
参数一：列名或列名的list，来标记特定考虑的列
参数二：有{‘first’, ‘last’, False}选项，first：把重复项的第一个数据标记为False，其余为True；last，把重复项中最后一个数据标记为False，其余为True；False：把全部数据都标记为True
例子：

df = pd.DataFrame(np.arange(12).reshape(3,4)%4)print("keep='first'")print(df.duplicated(keep='first'))print("keep='last'")print(df.duplicated(keep='last'))print("keep=False")print(df.duplicated(keep=False)) 删除数据 df.drop

DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')
功能
从行或列中丢掉特定的数据
介绍
参数一：要drop的Index或column的名字，可以是单个的，也可以是list
参数二：指定是index还是columns，可以用0和1或’index’和’columns’指定
参数三：df.drop(labels=labels, axis=0) = df.drop(index=labels)（都是drop index的功能）
参数四：df.drop(labels=labels, axis=1) = df.drop(columns=labels)（都是drop columns的功能）
参数五：对于多index来说，就是用来决定是drop哪个level
参数六：inplace老朋友了，True指定直接更改，返回None，False指定不直接更改而是返回更改后的copy
例子：
在读入数据之后有一些列可能并不需要，此时drop是最好

df.drop(['编号',''], axis=1, inplace=True) # 一列名字叫'编号'，另一列名字是空的 df.drop_duplicates

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)
功能
字面意义上就是drop重复的数据
介绍
参数一：只规定几个列来判断是否重复，默认用所有列
参数二：有{‘first’, ‘last’, False}选项，first：保留重复项的第一个数据；last，保留重复项中最后一个数据；False：有重复的全删除
参数三：inplace老朋友了，True指定直接更改，返回None，False指定不直接更改而是返回更改后的copy
参数四：重新定义索引从0开始
例子：
演示一下first，last和False

df = pd.DataFrame(np.arange(12).reshape(3,4)%4)print("keep='first'")print(df.drop_duplicates(keep='first'))print("keep='last'")print(df.drop_duplicates(keep='last'))print("keep=False")print(df.drop_duplicates(keep=False)) df.dropna

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
功能
drop掉NaN值，注意：从excel读入的空值是’’（空字符串）而不是NaN
介绍
参数一：0或’index’表示以行为单位删除NaN；1或’columns’表示以列为单位删除NaN
参数二：可选{‘any’, ‘all’}，any代表大于等于1的NaN就删除，all代表全部是NaN才删除
参数三：从字面上理解就是以某个值为界，比如：thresh=3，axis=0就是这行有三个NaN及以上才删除
参数四：考虑另一个轴的名字，比如：要删除NaN的行，那么subset就是列的名字或list，根据列来判断是否删除
参数五：inplace老朋友了，True指定直接更改，返回None，False指定不直接更改而是返回更改后的copy
例子：

df = pd.DataFrame(np.arange(12).reshape(3,4)%4)for i in range(df.shape[0]): df.loc[i,i] = np.nanprint('The original df: ')print(df)print("After df.dropna(axis=0,how='any',subset=[0,2])")print(df.dropna(axis=0,how='any',subset=[0,2]))