python excel 对比,Excel对比工具

最近有小伙伴说需要一个工具，用来对比2个excel表的差异，直接标记出来有差异的行。

代码倒还挺简单的，为了方便端庄的舞蹈使用，我给它打包成exe文件，点击执行即可输出结果。

1、先说一下怎么用，后面上代码

链接：https://pan.baidu.com/s/1oNEeIDOnw1Grw2MOdJrwUQ
提取码：w29l

先到网盘链接，下载文件：
如果不需要源代码，直接下载xlsx_compare.rar即可。

解压后打开：
这里面2个xlsx文件是我用来测试的文件，可以直接换成你自己的，必须是2个，不要放其他文件。

划重点：你的2个excel文件必须是xlsx格式的文件，且对比的内容放在Sheet1。

点击exe文件，结果如下：

会输出3份文件，第一个error_info.txt，就是执行过程中有报错的信息会写入到这文件里，运行正常的话里面写的是。

如果出现异常，例如你的2个对比文件忘记放进去了，error_info.txt就是这样的

另外2个new结尾的文件，就是对比的结果了，打开看看。

D列的数据因为长度超长，把它拉开就能看到内容了。
对比发现不一致的话，会在最后一列Compare Result标记

像这样的话，说明2个文件的第5、6、7行不一致，第8行是因为test1.xlsx没有第8行数据，而test2.xlsx有，因此也标记出来。

这样我们通过excel的筛选器过滤一下，就能得到2个文件不一致的所有行了

2、代码 #!/usr/从容的舞蹈/env python# -*- coding:utf-8 -*-# date: 2021/4/17# filename: xlsx_compare# author: kplinimport pandas as pdimport osdef my_log(info): try: with open('error_info.txt', 'w+') as f: f.write(info) f.close() except Exception as e: print('写入错误日志时发生以下错误：n%s'%e)def get_file(): try: # 获取当前文件夹下的2个文件 dir_path = os.getcwd() files = os.listdir(dir_path) ret = [] for i in files: if i.endswith('.xlsx') and not i.endswith('_new.xlsx'): ret.append(i) if i.endswith('.xlsx') and not i.endswith('_new.xlsx') and '~$' in i: info ='请关闭文件%s'%i my_log(info) return None if len(ret) == 0: info = '找不到待检测文件，请将2个xlsx文件放入此文件夹' my_log(info) return None # print(ret) return ret[0], ret[1] except Exception as e: my_log(str(e))def main(file1, file2): try: # 1、获取原文件路径和名称，先准备即将生成的新文件名和文件路径 fname1, ext = os.path.splitext(os.path.basename(file1)) new_file1 = file1.replace(fname1, fname1 + '_new') fname2, ext = os.path.splitext(os.path.basename(file2)) new_file2 = file2.replace(fname2, fname2 + '_new') # 2、读取文件 df1 = pd.read_excel(file1) df2 = pd.read_excel(file2) length = len(df1) if len(df1) >= len(df2) else len(df2) # 两个数据块行数不一致，补成一致的 if len(df1) - len(df2) > 0: # 获取DF1的列名 d = {} for i in df2.columns: d[i] = ['' for x in range(len(df1) - len(df2))] concat_df = pd.DataFrame(d) df2 = pd.concat([df2, concat_df]) if len(df2) - len(df1) > 0: d = {} for i in df1.columns: d[i] = ['' for x in range(len(df2) - len(df1))] concat_df = pd.DataFrame(d) df1 = pd.concat([df1, concat_df]) dis_index = [] for i in range(len(df1)): ret = df1.iloc[i, :]==df2.iloc[i, :] if False in ret.tolist(): dis_index.append(i) dis_list = ['' for i in range(length)] for i in dis_index: dis_list[i] = '不一致' df1['Compare Result'] = dis_list df2['Compare Result'] = dis_list df1.to_excel(new_file1, index=False) df2.to_excel(new_file2, index=False) my_log('校验成功，本次对比文件为：%s%s 和 %s%s'%(fname1, ext, fname2, ext)) print('校验完成，请查看新文件') except Exception as e: print('出现未知错误，请查看error_info.txt') my_log(str(e))if __name__ == '__main__': if not get_file(): print('读取文件时发生错误，请查看error_info.txt') else: file1, file2 = get_file() main(file1, file2)

总共有3个函数：

1、my_log函数用来写入日志。

2、get_file函数用来获取当前路径下所有后缀名为.xlsx的文件，会排除掉_new.xlsx文件，并且如果当前文件夹下有打开的excel文件，会自动结束运行，提示关闭当前文件夹下已被打开的excel文件。

3、main函数用来处理比对，并输出结果：
这里主要使用pandas读取数据并逐行对比，如果不一致，会记录下差异的位置，当检查完所有行后，给数据块加上一列Compare Result，把差异的行做一个标记，最后写入生成2个新文件。

依赖包都在requirements.txt里：
pandas 1.1.4
openpyxl 3.0.7
xlrd 1.2.0

可以直接pip install -r requirements.txt，直接下载安装依赖包。

逻辑很简单，但没有经过充分测试，可能遇到某些特殊情况会有其他报错，如果有的话，给我留言说明是什么情况导致的报错，有时间就改进一下。