首页 > 编程知识 正文

python遍历文件夹下的文件,python获取文件夹下的所有文件名

时间:2023-05-06 12:14:09 阅读:131983 作者:4937

目录遍历读取代码操作系统. walk ) )文件目录遍历

遍历读取代码

我前几天做了excel拼接的预处理工作。 一开始我想拼接有多难,但得到源文件真的崩溃了。 一个大文件里杂乱地保存着几个小文件,excel文件到处都是。 另外,每个excel文件中的工作表页数和名称也一团糟,没有任何规则。 每个excel表单都充满了各种人工痕迹,东一锤子西一棒是以前业务员插入的数据透视表。 总之,是一个非常脏的数据集。

那么,关于暴力扫描法,我们一个个读吧。 先读数据吧。 之后的清洗问题也一定是灾难。

下面的代码旨在读取包含子文件夹的大文件夹下的所有excel文件,并读取excel所有shell页面上的数据。

importpandasaspdimportosdfs=PD.data frame (# OS.walk ) file_path是file_path下的所有子文件夹和文件for root_dir, 深入遍历sub_dir源数据') : forfileinfiles : if file.endswith (.xlsx ' ) : #绝对路径file _ name=OS.path. file sheet_name=None ).keys (是excel表中所有sheet页面名称forsheetinpd.read _ excel (file _ name, 获取sheet_name=None ).keys sheet _ name=sheet ) excel_name=file.replace('.xlsx ', “”) #添加两列以记录数据所属的excel页面和sheet页面的步骤很有用,因为在清理后续数据时遇到了令人费解的数据而不知道

1 )根是指当前正在遍历的此文件夹的自身地址

2 ) dirs是list,内容是该文件夹中所有目录的名称。 不包括子目录。

3 ) files是同一列表,内容为该文件夹内的所有文件名。 不包含子目录。

其中我们实际使用中最常用的返回值是files。

#一个目录中的所有最终文件名for root、dirs、filesinOS.walk(r'c:(users ) desktop652020.9-12 ) ) :打印(files )

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。