Python教程：递归查找并合并多个子文件夹中的CSV文件

程序猿 • 2025年11月10日 09:21:42 • 后端开发 • 阅读 0

本教程将指导您如何利用python的`pathlib`模块递归遍历复杂目录结构，并结合`pandas`库高效地将多个子文件夹中的csv文件合并成一个统一的csv文件。我们将通过一个实际示例，展示如何定位、读取并整合分散的数据，最终生成一个便于分析的汇总数据集。

理解需求：多层目录下的CSV文件合并挑战

在数据处理的日常工作中，我们经常会遇到数据文件分散存储在多层子目录中的情况。例如，日志文件、传感器数据或实验结果可能按照日期、类型或批次等维度，被组织成类似 Sessions/day1/weather/weather1.csv、Sessions/day2/weather/weather2.csv 这样的结构。当需要对所有这些分散的数据进行统一分析时，首要任务就是将它们合并成一个完整的数据集。

传统的文件操作方法，如使用 os.walk 遍历目录树，或者 glob 模块进行模式匹配，虽然能够实现文件查找，但在处理复杂路径和递归查找时，代码可能显得冗长且不够直观。结合 pandas 进行数据合并，则需要一个高效且简洁的机制来获取所有目标文件的路径。

核心工具：pathlib与pandas

Python标准库中的 pathlib 模块提供了一种面向对象的方式来处理文件系统路径，极大地简化了路径操作。其 Path.rglob() 方法尤其适用于递归地查找符合特定模式的文件。而 pandas 库作为数据分析的核心工具，提供了 read_csv() 用于读取CSV文件，以及 concat() 函数用于将多个DataFrame对象高效地合并在一起。

本教程将展示如何巧妙地结合这两个库，以简洁高效的方式完成多层子目录下的CSV文件合并任务。

立即学习“Python免费学习笔记（深入）”；

实现步骤与代码示例

我们将以一个典型的场景为例：假设有一个名为 Sessions 的父目录，其中包含多个 dayX 子目录，每个 dayX 子目录又包含一个 weather 子目录，最终在 weather 目录中存放着 weatherX.csv 文件。我们的目标是将所有 weatherX.csv 文件合并到 Sessions 目录下的一个 weather_all.csv 文件中。

步骤1：导入必要库

首先，我们需要导入 pathlib 用于路径操作，以及 pandas 用于数据处理。

梅子Ai论文

无限免费生成千字论文大纲-在线快速生成论文初稿-查重率10%左右

66 查看详情

from pathlib import Pathimport pandas as pd

步骤2：定义目标父目录

指定包含所有子目录和CSV文件的父目录路径。在本例中，我们假设当前脚本与 Sessions 目录处于同一级别，或者提供 Sessions 的绝对路径。

parent_directory = Path('Sessions') # 相对路径，如果Sessions在当前工作目录下# 或者 parent_directory = Path('/path/to/your/Sessions') # 绝对路径，请替换为实际路径

步骤3：递归查找并收集CSV文件路径

使用 Path.rglob(‘*.csv’) 方法，我们可以递归地在 parent_directory 及其所有子目录中查找所有扩展名为 .csv 的文件。

csv_files = list(parent_directory.rglob('*.csv'))print(f"找到 {len(csv_files)} 个CSV文件。")if csv_files:    for file in csv_files[:5]: # 打印前5个文件路径作为示例        print(file)

步骤4：逐一读取CSV文件并存储到列表中

遍历找到的所有CSV文件路径，使用 pd.read_csv() 将每个文件读取为一个 pandas.DataFrame，并将这些DataFrame对象收集到一个列表中。

dfs_to_combine = []for file_path in csv_files:    try:        df = pd.read_csv(file_path)        dfs_to_combine.append(df)    except pd.errors.EmptyDataError:        print(f"警告: 文件 '{file_path}' 为空，跳过。")    except Exception as e:        print(f"错误: 读取文件 '{file_path}' 失败: {e}，跳过。")

步骤5：合并所有数据框并保存

当所有DataFrame都读取完毕并存储在 dfs_to_combine 列表中后，使用 pd.concat() 函数将它们一次性合并成一个大的DataFrame。最后，将合并后的DataFrame保存为一个新的CSV文件。

if dfs_to_combine: # 确保列表不为空    combined_df = pd.concat(dfs_to_combine, ignore_index=True)    destination_path = parent_directory / 'weather_all.csv' # 合并后的文件路径    # 确保输出目录存在，如果destination_path包含子目录    destination_path.parent.mkdir(parents=True, exist_ok=True)    combined_df.to_csv(destination_path, index=False, encoding='utf-8-sig')    print(f"所有CSV文件已成功合并并保存到: {destination_path}")else:    print("没有可合并的数据。")

ignore_index=True 参数在合并时会重置索引，这对于新的合并数据集通常是期望的行为。encoding=’utf-8-sig’ 确保了在不同系统上的兼容性，尤其是在处理包含特殊字符的数据时。

完整代码示例

将上述步骤整合在一起，形成一个完整的脚本：

from pathlib import Pathimport pandas as pddef combine_nested_csvs(parent_dir_path, output_filename='weather_all.csv'):    """    递归查找指定父目录及其子目录中的所有CSV文件，    并将它们合并成一个单一的CSV文件。    Args:        parent_dir_path (str or Path): 包含CSV文件的父目录路径。        output_filename (str): 合并后CSV文件的名称。    """    parent_directory = Path(parent_dir_path)    if not parent_directory.is_dir():        print(f"错误: 目录 '{parent_dir_path}' 不存在。")        return    csv_files = list(parent_directory.rglob('*.csv'))    if not csv_files:        print(f"在 '{parent_dir_path}' 中没有找到任何CSV文件。")        return    print(f"找到 {len(csv_files)} 个CSV文件，开始读取和合并...")    dfs_to_combine = []    for file_path in csv_files:        try:            # 尝试读取文件，可以根据需要添加更多pd.read_csv的参数            df = pd.read_csv(file_path)            dfs_to_combine.append(df)        except pd.errors.EmptyDataError:            print(f"警告: 文件 '{file_path}' 为空，跳过。")        except Exception as e:            print(f"错误: 读取文件 '{file_path}' 失败: {e}，跳过。")    if dfs_to_combine:        combined_df = pd.concat(dfs_to_combine, ignore_index=True)        destination_path = parent_directory / output_filename        # 确保输出目录存在        destination_path.parent.mkdir(parents=True, exist_ok=True)        combined_df.to_csv(destination_path, index=False, encoding='utf-8-sig')        print(f"所有CSV文件已成功合并并保存到: {destination_path}")    else:        print("没有可合并的数据。")# 示例调用# 假设你的 'Sessions' 目录与你的脚本在同一目录下# combine_nested_csvs('Sessions', 'weather_all.csv')# 如果 'Sessions' 在其他位置，请提供完整路径# combine_nested_csvs('/Users/YourUser/Documents/Sessions', 'weather_all.csv')

注意事项与最佳实践

列名一致性： pd.concat() 在合并时会尝试对齐列。如果所有CSV文件的列名和顺序完全一致，合并将非常顺利。如果列名不一致，pd.concat 会创建所有列的并集，并在缺失值处填充 NaN。在合并前，建议检查并标准化所有CSV文件的列结构。内存管理： 对于数量巨大或单个文件很大的CSV数据集，将所有DataFrame一次性加载到内存中可能会导致内存溢出。在这种情况下，可以考虑以下策略：分块读取： 使用 pd.read_csv(…, chunksize=…) 分块读取并处理数据。逐步写入： 读取一个文件，写入输出文件（追加模式），然后读取下一个。使用 dask.dataframe： 对于超大数据集，dask 提供了类似于 pandas 的API，但能够处理超出内存限制的数据。错误处理： 在读取CSV文件时，应考虑文件可能为空 (pd.errors.EmptyDataError)、文件损坏或编码问题等异常情况。在示例代码中已加入了基本的 try-except 块来处理这些情况。文件编码： 确保 pd.read_csv() 和 df.to_csv() 使用正确的编码（如 ‘utf-8’ 或 ‘utf-8-sig’），以避免乱码问题。文件复制： 如果除了合并之外，你确实需要将每个单独的CSV文件复制到一个目标目录，可以在读取文件的循环中添加 `shutil

以上就是Python教程：递归查找并合并多个子文件夹中的CSV文件的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/577746.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Pandas数据帧排序差异：Excel与CSV文件加载后的数据一致性排查

上一篇 2025年11月10日 09:20:52

使用 NumPy 进行图像切片的随机起始点方法及原理

下一篇 2025年11月10日 09:22:11

好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
2000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
2000
好文分享

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
0000
好文分享

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
0000
好文分享

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
0000
好文分享

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
好文分享

css怎么设置文件编码

在css中，可以使用“@charset”规则来设置编码，语法格式“@charset “字符编码类型”;”。“@charset”规则可以指定样式表中使用的字符编码，它必须是样式表中的第一个元素，并且不能以任何字符开头。本教程操作环境：windows7系统、CSS3&&…

程序猿
2025年12月24日
0000
好文分享

响应式HTML5按钮适配不同屏幕方法【方法】

实现响应式HTML5按钮需五种方法：一、CSS媒体查询按max-width断点调整样式；二、用rem/vw等相对单位替代px；三、Flexbox控制容器与按钮伸缩；四、CSS变量配合requestAnimationFrame优化的JS动态适配；五、Tailwind等框架的响应式工具类。如果您希望H…

程序猿
2025年12月23日
0000
好文分享

html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

HTML5无法直接导出video标签内容，需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制；FFmpeg.wasm支持MP4等格式及精细编码控制；服务端方案适合高负载场景。如果您希望在网页…

程序猿
2025年12月23日
3000
好文分享

如何查看编写的html_查看自己编写的HTML文件效果【效果】

要查看HTML文件的浏览器渲染效果，需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。如果您编写了HTML代码，但无法直观看到其在浏览器中的实际渲染效果，则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

程序猿
2025年12月23日
4000
好文分享

html5怎么加php_html5用Ajax与PHP后端交互实现数据传递【交互】

HTML5不能直接运行PHP，需通过Ajax与PHP通信：前端用fetch发送请求，PHP接收处理并返回JSON，前端解析响应更新DOM；注意跨域、编码、CSRF防护和输入过滤。 HTML5 本身是前端标记语言，不能直接运行 PHP 代码，但可以通过 Ajax（异步 JavaScript）与 PHP…

程序猿
2025年12月23日
3000
好文分享

html5 js怎么加_html5用script标签内嵌或外链引入JS代码【添加】

在HTML5中执行JavaScript需通过script标签：一、内联编写于head或body中；二、外链引入.js文件并建议放body末尾或加defer；三、defer按序执行，async独立执行；四、可动态创建script元素插入执行。如果您希望在HTML5页面中执行JavaScript代码，…

程序猿
2025年12月23日
0000
好文分享

node.js怎么运行html_node.js运行html步骤【指南】

答案是使用Node.js内置http模块、Express框架或第三方工具serve可快速搭建服务器预览HTML文件。首先通过http模块创建服务器并读取index.html返回响应；其次用Express初始化项目并配置静态文件服务；最后利用serve工具全局安装后一键启动服务器，三种方式均在浏览器访…

程序猿
2025年12月23日
3000
好文分享

html5能否插入带表单的文档_html5表单文档嵌入与数据提交【步骤】

HTML5中无法直接嵌入外部带表单的HTML文档并原生提交；可行方案有四：一、用iframe嵌入，需同源或CORS支持，并用postMessage通信；二、用fetch+DOMParser动态加载表单片段并手动绑定事件；三、在当前页面直接编写表单，最规范且兼容性好；四、用JavaScript+fet…

程序猿
2025年12月23日
0000
html5怎么引用js_HTML5用外链或内嵌JS代码引用脚本【引用】

HTML5中执行JavaScript需通过外链或内嵌方式引入：一、外链用，支持defer/async；二、内嵌将代码写入间，推荐置于body底部；三、type属性默认可省略；四、模块化使用type=”module”支持ES6 import/export。 <img sr…

程序猿
好文分享 2025年12月23日
0000
好文分享

html5游戏怎么修改_HT5改JS逻辑或资源文件调整游戏玩法效果【修改】

需直接编辑核心JavaScript代码或替换图片、音频等资源文件；先用浏览器开发者工具的Sources面板定位含game、main等关键词的.js文件，再搜索score++、if (health等逻辑片段进行修改。如果您下载了某个HTML5游戏的本地文件，希望调整其玩法逻辑或替换资源以改变视觉效果…

程序猿
2025年12月23日
0000
好文分享

360怎么装html5_360浏览器默认支持HTML5无需额外安装设置【说明】

HTML5是网页标准，非独立软件，360浏览器7.0+已原生支持；需确认内核为Blink/Chromium、关闭兼容模式、禁用强制兼容策略、重置Flash插件、清除HTML5本地存储、检查系统Media Foundation组件。如果您在使用360浏览器时发现HTML5网页功能异常（如视频无法播放…

程序猿
2025年12月23日
0000
好文分享

html5怎么重叠图片_html5用position:absolute或z-index让图片重叠【重叠】

在HTML5中实现图片重叠需结合CSS定位与层叠控制：一、用position:absolute+top/left精确定位，父容器设position:relative；二、用z-index设定堆叠顺序（需已定位）；三、用transform:translate()实现无文档流干扰的偏移重叠；四、用CSS…

程序猿
2025年12月23日
2000
好文分享

html5怎么打包运行_HT5用Webpack或Gulp打包后浏览器打开运行【打包】

应通过 HTTP 服务运行打包后的 HTML5 页面，而非双击打开：一、Webpack 配 webpack-dev-server 启动本地服务；二、Gulp 配 BrowserSync 提供实时重载；三、用 Python/Node.js 轻量 HTTP 工具托管 dist 目录；四、仅当必须双击运行…

程序猿
2025年12月23日
0000
好文分享

html5文件运行不出来怎么回事_析html5文件运行失败原因【解析】

首先检查文件扩展名和编码格式，确保为.html且使用UTF-8编码；接着验证HTML5结构完整性，包含及正确闭合的标签；然后排查外部资源路径是否正确，利用开发者工具查看404错误；排除浏览器兼容性问题，优先在现代浏览器中测试并避免未广泛支持的API；检查JavaScript语法错误与执行顺序，确保脚…

程序猿
2025年12月23日
0000