首页 > 编程知识 正文

python怎么删除重复数据库,python删除列表重复

时间:2023-12-26 12:11:37 阅读:322642 作者:XHNW

本文目录一览:

python--pandas删除

drop 方法是pandas中删除行或列的方法。

根据 索引名 删除目标行。

当需要根据索引位置删除时,可以使用 index 属性来组合完成。

根据 列名 删除目标列,同时需要设置 axis=1 或者 columns 。

当需要根据列位置删除时,可以使用 columns 属性来组合完成。

删除列也可以用关键字 del 实现,每次只能删除一列,且删除列后,原数据发生改变。

同时删除行和列,需要为行使用 index 参数,为列使用 columns 参数。

当数据框有多重索引时,删除行时,需要设置 level 参数。

多重索引数据框同时删除行和列时,只能删除第一层索引和列。

dropna 为删除缺失值的方法。

默认会删除包含缺失值的所有行。

可设置 how , thresh , subset 参数控制删除的行为。

设置参数 axis=1 或者 axis=columns 删除缺失列。

同样,可以设置 how , thresh , subset 参数来控制删除缺失列的行为。

删除重复值用 drop_duplicates 方法实现。

设置 subset 参数,根据列删除重复行。

设置 ignore_index=True 可以对删除重复行后的数据索引重排序。

python删除重复数据

利用集合的不重复属性,可以先转换至集合,再用list()函数转换回来即可。

比如,a是一个列表,a=list(set(a)),即可完成列表去重。

python如何批量对每一个excel文件进行去重?

01

去重

我们使用Pandas库的drop_duplicates(subset=None, keep=‘first’, inplace=False)功能来对Excel文件中的重复项进行删除。

其中,subset参数代表指定列标记,默认当每一条行记录完全相同时,才会认定为重复行;keep=‘’有‘first’、‘last’和‘False’,意思是删除重复行时,保留first还是last还是全部删除,默认参数是‘first’;inplace=‘’有True和Flase,意思是直接替换还是保留副本,默认值是Flase。

读取Excel

import pandas as pd

df = pd.read_excel('全部.xlsx')

选中列去重

df.drop_duplicates(['用户名称'])

其中第2、3行的用户名称与第0、1行重复,所以被删除。

03

保存最后一个重复数据

df.drop_duplicates(['用户名称'],keep='last')

04

保存Excel

df.to_excel('去重后.xlsx')

02

批量获取Excel文件

在上面我们已经学会如何对单个Excel文件去重了,但是在读取文件名的时候,我们还是需要手动输入的,如果文件很多的话,我们要一个一个的输入,这不仅麻烦,而且也不符合自动化办公的名头。所以,我们就需要想办法取得该目录下的所有Excel文件。

这里我们用的是Pathlib库,取得该目录下所有的xlsx格式文件。

path = 'K:自动化办公'

python如何有多个重复元素删除其中一个?

如果你知道他的索引(index)

假设他的索引存在变量a中

列表名为list

list.pop(a)

当然,也可以用remove函数

但是,局限于只能删第一个

比如:

a=[0,1,1,1,2,3,3]

a.remove(1)

print(a)

结果为:

[0, 1, 1, 2, 3, 3]

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。