Python Pandas:高效合并多工作簿多工作表 Excel 数据

Python Pandas:高效合并多工作簿多工作表 Excel 数据

本教程详细指导如何使用 Python Pandas 库高效合并来自多个 Excel 文件中指定工作表的数据。文章将解释如何遍历文件目录、正确加载 Excel 文件、识别并解析特定工作表,并将来自不同文件的同名工作表数据智能地整合到一个 Pandas DataFrame 字典中,同时提供完整的示例代码和注意事项,帮助用户避免常见的 AttributeError 并优化数据处理流程。

引言

在日常数据分析和报告工作中,我们经常需要处理大量分散在多个 excel 文件中的数据。这些文件可能包含多个工作表,并且我们需要从中提取特定工作表的数据进行整合。手动操作不仅效率低下,还容易出错。python 的 pandas 库提供了强大的数据处理能力,能够自动化这一复杂过程。本文将深入探讨如何利用 pandas 优雅地解决多 excel 文件、多工作表的数据合并问题。

环境准备

在开始之前,请确保您的 Python 环境中已安装 Pandas 和用于读取 Excel 文件的引擎库(如 openpyxl 或 xlrd)。如果尚未安装,可以通过以下命令进行安装:

pip install pandas openpyxl xlrd

理解常见错误:AttributeError: ‘str’ object has no attribute ‘sheet_names’

在处理 Excel 文件时,一个常见的错误是 AttributeError: ‘str’ object has no attribute ‘sheet_names’。这个错误通常发生在尝试对一个文件路径字符串(str 类型)直接调用 sheet_names 方法时。sheet_names 是 pandas.ExcelFile 对象的属性,而不是文件路径字符串的属性。

错误原因示例:

path = "your_excel_file.xlsx"# 错误:path 是字符串,没有 sheet_names 属性for sheet_name in path.sheet_names:     pass

正确做法:

立即学习“Python免费学习笔记(深入)”;

在使用 sheet_names 之前,必须先将文件路径传递给 pd.ExcelFile() 构造函数,创建一个 ExcelFile 对象。

file_path = "your_excel_file.xlsx"xls = pd.ExcelFile(file_path) # 创建 ExcelFile 对象for sheet_name in xls.sheet_names: # 现在可以访问 sheet_names 属性    pass

理解这一点是避免此类错误的关键,也是本文核心解决方案的基础。

核心解决方案:使用 Pandas 合并多文件多工作表数据

我们的目标是遍历指定目录下的所有 Excel 文件,识别并合并其中符合特定条件(例如,名称匹配)的工作表数据。最终,我们将把来自不同文件的同名工作表数据合并成一个独立的 DataFrame,并存储在一个字典中。

解决方案概述

指定根目录:确定存放 Excel 文件的最上层目录。遍历文件系统:使用 os.walk 遍历根目录及其所有子目录,查找 Excel 文件。加载 Excel 文件:对每个找到的 Excel 文件,使用 pd.ExcelFile() 加载。获取工作表名称:通过 xls.sheet_names 获取当前 Excel 文件中所有工作表的名称。条件筛选与解析:根据预设条件(如工作表名称)筛选工作表,并使用 xls.parse() 将其解析为 Pandas DataFrame。数据整合:将来自不同文件的同名工作表数据收集起来,并使用 pd.concat() 进行纵向合并。存储结果:将合并后的 DataFrame 存储在一个字典中,以工作表名称作为键。

示例代码

以下是一个完整的 Python 函数,实现了上述数据合并逻辑:

import osimport pandas as pddef merge_excel_sheets(base_path, target_sheet_names=None):    """    合并指定路径下多个Excel文件中符合条件的工作表。    Args:        base_path (str): 包含Excel文件的根目录路径。        target_sheet_names (list, optional): 一个列表,包含需要合并的工作表名称。                                              如果为None,则合并所有非排除工作表。    Returns:        dict: 键为工作表名称,值为合并后的DataFrame的字典。              每个DataFrame包含来自所有Excel文件中同名工作表的数据。    """    # 临时存储每个工作表名称下的所有DataFrame列表    all_sheet_data_lists = {}     print(f"开始遍历目录: {base_path}")    # 遍历指定目录及其子目录    for root, _, files in os.walk(base_path):        for fname in files:            file_path = os.path.join(root, fname)            # 确保只处理Excel文件(.xlsx 或 .xls 扩展名)            if fname.endswith(('.xlsx', '.xls')):                try:                    # 使用 pd.ExcelFile 加载 Excel 文件,而不是直接操作字符串路径                    xls = pd.ExcelFile(file_path)                    print(f"n正在处理文件: {fname}")                    # 遍历当前Excel文件中的所有工作表                    for sheet_name in xls.sheet_names:                        # 根据 target_sheet_names 筛选工作表                        if target_sheet_names and sheet_name not in target_sheet_names:                            continue # 跳过不符合条件的工作表                        print(f"  - 发现并处理工作表: '{sheet_name}'")                        try:                            # 解析指定工作表到 DataFrame                            df = xls.parse(sheet_name)                            # 将当前 DataFrame 添加到对应工作表名称的列表中                            if sheet_name not in all_sheet_data_lists:                                all_sheet_data_lists[sheet_name] = []                            all_sheet_data_lists[sheet_name].append(df)                        except Exception as e:                            print(f"    - 警告: 无法解析工作表 '{sheet_name}' 在文件 '{fname}' 中: {e}")                            continue                except Exception as e:                    print(f"  - 错误: 无法加载Excel文件 '{fname}': {e}")                    continue            else:                print(f"  - 跳过非Excel文件: {fname}")    # 将每个工作表名称下的所有DataFrame列表合并成一个DataFrame    final_merged_dict = {}    for sheet_name, df_list in all_sheet_data_lists.items():        if df_list:            # 使用 pd.concat 纵向合并所有 DataFrame            final_merged_dict[sheet_name] = pd.concat(df_list, ignore_index=True)            print(f"n成功合并工作表 '{sheet_name}' 的数据。总行数: {len(final_merged_dict[sheet_name])}")        else:            print(f"警告: 工作表 '{sheet_name}' 未找到任何数据进行合并。")    return final_merged_dict# --- 使用示例 ---# 请将 'your/excel/files/path' 替换为你的Excel文件所在的实际路径# 确保该路径下包含多个Excel文件,且这些文件内有同名的工作表。excel_directory_path = 'your/excel/files/path' # 示例:合并名为 'Portfolios' 和 'SP Search Term Req' 的工作表# 如果希望合并所有工作表,可以将 target_sheet_names 设置为 Nonetarget_sheets_to_merge = ['Portfolios', 'SP Search Term Req'] # 调用函数执行合并操作merged_dataframes = merge_excel_sheets(excel_directory_path, target_sheet_names=target_sheets_to_merge)# 打印合并结果的概览if merged_dataframes:    print("n--- 合并结果概览 ---")    for sheet_name, df in merged_dataframes.items():        print(f"n工作表 '{sheet_name}' 合并后的数据 (前5行):")        print(df.head())        print(f"总行数: {len(df)}")else:    print("n未找到符合条件的工作表数据进行合并。")# 如果需要将所有合并后的DataFrame进一步整合成一个大的DataFrame# all_combined_dfs = list(merged_dataframes.values())# if all_combined_dfs:#     final_single_df = pd.concat(all_combined_dfs, ignore_index=True)#     print("n所有符合条件的工作表合并成一个大DataFrame的概览 (前5行):")#     print(final_single_df.head())#     print(f"总行数: {len(final_single_df)}")

代码详解

import os 和 import pandas as pd: 导入所需的 os 模块用于文件系统操作,以及 pandas 模块用于数据处理。merge_excel_sheets(base_path, target_sheet_names=None) 函数:base_path: Excel 文件所在的根目录路径。target_sheet_names: 一个可选列表,包含您希望合并的工作表名称。如果为 None,则会尝试合并所有发现的工作表(请注意,这可能会导致大量数据)。all_sheet_data_lists = {}: 这是一个字典,用于临时存储。它的键是工作表名称,值是一个列表,该列表包含了来自不同 Excel 文件的同名工作表的 DataFrame。os.walk(base_path): 这是一个生成器,它会递归地遍历 base_path 下的所有目录和文件。每次迭代返回一个三元组 (root, dirs, files),其中 root 是当前目录的路径,dirs 是 root 下的子目录列表,files 是 root 下的文件列表。os.path.join(root, fname): 用于构建文件的完整路径,确保跨平台兼容性。fname.endswith((‘.xlsx’, ‘.xls’)): 检查文件扩展名,确保只处理 Excel 文件。pd.ExcelFile(file_path): 关键步骤。它将 Excel 文件加载为一个 ExcelFile 对象。只有通过这个对象,我们才能访问文件的元数据(如 sheet_names)和内容。xls.sheet_names: 返回当前 ExcelFile 对象中所有工作表的名称列表。条件判断 if target_sheet_names and sheet_name not in target_sheet_names:: 根据 target_sheet_names 列表筛选需要处理的工作表。xls.parse(sheet_name): 从 ExcelFile 对象中解析指定名称的工作表,并将其转换为一个 Pandas DataFrame。数据收集 all_sheet_data_lists[sheet_name].append(df): 将解析出的 DataFrame 添加到 all_sheet_data_lists 字典中对应工作表名称的列表中。pd.concat(df_list, ignore_index=True): 在遍历完所有文件并收集到所有同名工作表的 DataFrame 列表后,使用 pd.concat 将这些 DataFrame 纵向堆叠(即行追加),ignore_index=True 会重置合并后的 DataFrame 的索引。错误处理 try…except: 捕获在加载 Excel 文件或解析工作表时可能发生的错误,提高代码的健壮性。

注意事项

文件路径准确性:请务必将示例代码中的 ‘your/excel/files/path’ 替换为您的 Excel 文件所在的实际路径。路径错误是导致程序无法运行的常见原因。内存消耗:如果您的 Excel 文件数量庞大或单个工作表数据量巨大,pd.concat 操作可能会消耗大量内存。在这种情况下,可以考虑:分批处理文件。在解析时指定 dtype 参数以优化 DataFrame 的数据类型,减少内存占用。如果数据量过大,考虑使用 Dask 等大数据处理库。数据结构一致性:当合并多个 Excel 文件中的同名工作表时,最好确保这些工作表的列结构(列名、列顺序)大致相同。如果列名不一致,pd.concat 默认会保留所有列,并在缺失值处填充 NaN。错误处理与日志记录:示例代码中包含了基本的 try-except 块来处理文件加载和工作表解析错误。在生产环境中,建议加入更详细的日志记录,以便追踪问题。空文件或空工作表:代码会尝试处理所有 Excel 文件。如果存在空文件或空工作表,xls.parse() 可能会返回空的 DataFrame,这在 pd.concat 中通常

以上就是Python Pandas:高效合并多工作簿多工作表 Excel 数据的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1374438.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
内联CSS怎么嵌入HTML文档_内联CSS嵌入HTML文档的详细步骤
上一篇 2026年5月10日 11:21:52
使用 C++ 构建高性能服务器架构的最佳实践
下一篇 2026年5月10日 11:21:53

相关推荐

  • Matplotlib 地图中多类型图例的创建与优化

    Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化

    本教程旨在解决matplotlib地图可视化中,如何在一个图例中同时展示颜色块(如区域分类)和自定义标记(如特定兴趣点)的问题。文章详细介绍了当传统`patch`对象无法正确显示标记时,如何利用`matplotlib.lines.line2d`创建标记图例句柄,并将其与颜色块图例句柄合并,从而生成一…

    2026年5月10日 用户投稿
    100
  • 利用海象运算符简化条件赋值:Python教程与最佳实践

    本文旨在探讨Python中海象运算符(:=)在条件赋值场景下的应用。通过对比传统if/else语句与海象运算符,以及条件表达式,分析海象运算符在简化代码、提高可读性方面的优势与局限性。并通过具体示例,展示如何在列表推导式等场景下合理使用海象运算符,同时强调其潜在的复杂性及替代方案,帮助开发者更好地掌…

    2026年5月10日
    100
  • 比特币新手教程 比特币交易平台有哪些

    比特币是一种去中心化的数字货币,基于区块链技术实现点对点交易,具有匿名性、有限发行和不可篡改等特点;新手可通过交易所购买,P2P交易获得比特币,常用平台包括Binance、OKX和Huobi;交易流程包括注册账户、实名认证、绑定支付方式、充值法币并下单购买,可选择市价单或限价单;比特币存储方式有交易…

    2026年5月10日
    000
  • RichHandler与Rich Progress集成:解决显示冲突的教程

    在使用rich库的`richhandler`进行日志输出并同时使用`progress`组件时,可能会遇到显示错乱或溢出问题。这通常是由于为`richhandler`和`progress`分别创建了独立的`console`实例导致的。解决方案是确保日志处理器和进度条组件共享同一个`console`实例…

    2026年5月10日
    000
  • 使用 Jupyter Notebook 进行探索性数据分析

    Jupyter Notebook通过单元格实现代码与Markdown结合,支持数据导入(pandas)、清洗(fillna)、探索(matplotlib/seaborn可视化)、统计分析(describe/corr)和特征工程,便于记录与分享分析过程。 Jupyter Notebook 是进行探索性…

    2026年5月10日
    000
  • 深入理解 Express.js 中 next() 参数的作用与中间件机制

    本文深入探讨 express.js 中间件函数中的 `next()` 参数。它负责将控制权传递给请求-响应周期中的下一个中间件或路由处理程序。文章将详细解释 `next()` 的工作原理、中间件的注册与执行顺序,以及不正确使用 `next()` 可能导致请求挂起的风险,并通过代码示例和实际应用场景,…

    2026年5月10日
    000
  • Python命令怎样使用profile分析脚本性能 Python命令性能分析的基础教程

    使用Python的cProfile模块分析脚本性能最直接的方式是通过命令行执行python -m cProfile your_script.py,它会输出每个函数的调用次数、总耗时、累积耗时等关键指标,帮助定位性能瓶颈;为进一步分析,可将结果保存为文件python -m cProfile -o ou…

    2026年5月10日
    000
  • Python递归函数追踪与性能考量:以序列打印为例

    本文深入探讨了Python中一种递归打印序列元素的方法,并着重演示了如何通过引入缩进参数来有效追踪递归函数的执行流程和参数变化。通过实际代码示例,文章揭示了递归调用可能带来的潜在性能开销,特别是对调用栈空间的需求,以及Python默认递归深度限制可能导致的错误,为读者提供了理解和优化递归算法的实用见…

    2026年5月10日
    000
  • python中zip函数详解 python多序列压缩zip函数应用场景

    zip函数的应用场景包括:1) 同时遍历多个序列,2) 合并多个列表的数据,3) 数据分析和科学计算中的元素运算,4) 处理csv文件,5) 性能优化。zip函数是一个强大的工具,能够简化代码并提高处理多个序列时的效率。 在Python中,zip函数是一个非常有用的工具,它能够将多个可迭代对象打包成…

    2026年5月10日
    000
  • JavaScript 闭包:理解闭包原理与内存泄漏问题

    闭包是函数访问其外部作用域变量的能力,即使外部函数已执行完毕。如 inner 函数引用 outer 中的 count,形成闭包,使变量持久存在。闭包本身无害,但可能因延长变量生命周期导致内存泄漏,例如事件监听器引用大对象时。若未及时清理 DOM 事件或定时器,闭包会阻止垃圾回收,造成内存占用过高。解…

    2026年5月10日
    000
  • c++如何实现UDP通信_c++基于UDP的网络通信示例

    UDP通信基于套接字实现,适用于实时性要求高的场景。1. 流程包括创建套接字、绑定地址(接收方)、发送(sendto)与接收(recvfrom)数据、关闭套接字;2. 服务端监听指定端口,接收客户端消息并回传;3. 客户端发送消息至服务端并接收响应;4. 跨平台需处理Winsock初始化与库链接,编…

    2026年5月10日
    000
  • Python中怎样使用pymongo?

    在python中使用pymongo可以轻松地与mongodb数据库进行交互。1)安装pymongo:pip install pymongo。2)连接到mongodb:from pymongo import mongoclient; client = mongoclient(‘mongod…

    2026年5月10日
    000
  • Golang空接口如何应用在项目中

    空接口可用于接收任意类型值,常见于日志函数、通用数据结构、JSON动态解析及配置驱动逻辑,提升代码灵活性,但需配合类型断言确保安全,避免滥用以降低维护成本。 空接口 interface{} 在 Go 语言中是一个非常灵活的类型,它可以存储任何类型的值。虽然它牺牲了一部分类型安全,但在实际项目中合理使…

    2026年5月10日
    100
  • JavaScript计算器开发:解决数值显示与初始化问题

    本教程深入探讨了使用JavaScript构建计算器时常见的数值显示异常问题,特别是由于类属性未初始化导致的`Cannot read properties of undefined`错误。我们将详细分析问题根源,并通过在构造函数中调用初始化方法来解决该问题,同时优化显示逻辑,确保计算器功能稳定且界面显…

    2026年5月10日
    000
  • Python 函数参数类型:如何使用可变参数和动态参数?

    python 中的参数类型:关键词参数、可变参数和动态参数 在 python 中,函数的参数可以分为以下几种类型: 关键词参数(kw)**:这些参数具有名称,并且在调用函数时明确指定。可变参数(*args):这些参数没有名称,允许函数接受任意数量的位置参数。它们将被收集到一个元组中。动态参数(kwa…

    2026年5月10日
    000
  • Circle为何在凌晨向Solana新增铸造5亿枚USDC?USDC增发原因与对SOL生态影响深度解析

    近日,链上数据显示,Circle 在凌晨向 Solana 链新增铸造了 5亿枚USDC。此次大规模增发引起市场关注,投资者需要了解背后的原因以及对 Solana 生态的潜在影响。 USDC增发原因分析 增发 USDC 的主要原因可能包括: 满足市场需求:近期 Solana 上交易活动活跃,USDC …

    2026年5月10日
    000
  • pycharm解析器怎么添加 解析器添加详细流程

    在pycharm中添加解析器的步骤包括:1) 打开pycharm并进入设置,2) 选择project interpreter,3) 点击齿轮图标并选择add,4) 选择解析器类型并配置路径,5) 点击ok完成添加。添加解析器后,选择合适的类型和版本,配置环境变量,并利用解析器的功能提高开发效率。 在…

    2026年5月10日
    000
  • python中numpy的用法

    NumPy是Python中用于科学计算的强大库,它提供了以下功能:多维数组处理矩阵运算快速傅里叶变换(FFT)线性代数随机数生成 NumPy在Python中的强大功能 NumPy是Python中用于科学计算的一个强大且灵活的库。它提供了用于处理多维数组和矩阵的一组高效工具,是数据分析和机器学习项目的…

    2026年5月10日
    100
  • 从 JavaScript 获取 URL 并在 PHP DataGrid 中使用

    本文档旨在指导开发者如何从 JavaScript 函数中获取 URL,并将其动态应用于 PHP DataGrid。通过前端 JavaScript 动态生成 API 地址,并将其传递给后端的 PHP DataGrid,实现数据根据用户会话动态加载。 动态配置 DataGrid 的 URL 在构建动态 …

    2026年5月10日
    000
  • python如何捕获所有类型的异常_python try except捕获所有异常的方法

    答案:捕获所有异常推荐使用except Exception as e,可捕获常规错误并记录日志,避免影响程序正常退出;需拦截系统信号时才用except BaseException as e。 在Python中,要捕获所有类型的异常,最常见且推荐的方法是使用 except Exception as e…

    2026年5月10日
    000

发表回复

登录后才能评论
关注微信