python怎么删除重复数据库,python删除列表重复

本文目录一览：

1、python--pandas删除
2、python删除重复数据
3、python如何批量对每一个excel文件进行去重？
4、python如何有多个重复元素删除其中一个？

python--pandas删除

drop 方法是pandas中删除行或列的方法。

根据索引名删除目标行。

当需要根据索引位置删除时，可以使用 index 属性来组合完成。

根据列名删除目标列，同时需要设置 axis=1 或者 columns 。

当需要根据列位置删除时，可以使用 columns 属性来组合完成。

删除列也可以用关键字 del 实现，每次只能删除一列，且删除列后，原数据发生改变。

同时删除行和列，需要为行使用 index 参数，为列使用 columns 参数。

当数据框有多重索引时，删除行时，需要设置 level 参数。

多重索引数据框同时删除行和列时，只能删除第一层索引和列。

dropna 为删除缺失值的方法。

默认会删除包含缺失值的所有行。

可设置 how , thresh , subset 参数控制删除的行为。

设置参数 axis=1 或者 axis=columns 删除缺失列。

同样，可以设置 how , thresh , subset 参数来控制删除缺失列的行为。

删除重复值用 drop_duplicates 方法实现。

设置 subset 参数，根据列删除重复行。

设置 ignore_index=True 可以对删除重复行后的数据索引重排序。

python删除重复数据

利用集合的不重复属性，可以先转换至集合，再用list()函数转换回来即可。

比如，a是一个列表，a=list(set(a))，即可完成列表去重。

python如何批量对每一个excel文件进行去重？

去重

我们使用Pandas库的drop_duplicates(subset=None, keep=‘first’, inplace=False)功能来对Excel文件中的重复项进行删除。

其中，subset参数代表指定列标记，默认当每一条行记录完全相同时，才会认定为重复行；keep=‘’有‘first’、‘last’和‘False’，意思是删除重复行时，保留first还是last还是全部删除，默认参数是‘first’；inplace=‘’有True和Flase，意思是直接替换还是保留副本,默认值是Flase。

读取Excel

import pandas as pd

df = pd.read_excel('全部.xlsx')

选中列去重

df.drop_duplicates(['用户名称'])

其中第2、3行的用户名称与第0、1行重复，所以被删除。

保存最后一个重复数据

df.drop_duplicates(['用户名称'],keep='last')

保存Excel

df.to_excel('去重后.xlsx')

批量获取Excel文件

在上面我们已经学会如何对单个Excel文件去重了，但是在读取文件名的时候，我们还是需要手动输入的，如果文件很多的话，我们要一个一个的输入，这不仅麻烦，而且也不符合自动化办公的名头。所以，我们就需要想办法取得该目录下的所有Excel文件。

这里我们用的是Pathlib库，取得该目录下所有的xlsx格式文件。

path = 'K:自动化办公'

python如何有多个重复元素删除其中一个？

如果你知道他的索引（index）

假设他的索引存在变量a中

列表名为list

list.pop(a)

当然，也可以用remove函数

但是，局限于只能删第一个

比如：

a=[0,1,1,1,2,3,3]

a.remove(1)

print(a)

结果为：

[0, 1, 1, 2, 3, 3]