Pandas 数据重塑与时间序列聚合:从月度列到季度/年度汇总

Pandas 数据重塑与时间序列聚合:从月度列到季度/年度汇总

本教程详细介绍了如何使用 Pandas 对具有 YYYYMM 格式月度数据列的 DataFrame 进行高效重塑与聚合。通过 melt 函数将宽格式数据转换为长格式,结合字符串操作提取年份和月份,并创建季度映射,最终实现灵活的季度和年度数据汇总。文章提供了清晰的步骤、代码示例,并探讨了相关注意事项,帮助用户轻松处理动态时间范围的数据聚合需求。

在数据分析中,我们经常会遇到需要将细粒度的时间序列数据(如月度数据)聚合为粗粒度数据(如季度或年度数据)的场景。当原始数据以宽格式存储,即每个月份作为独立列时,手动指定每个季度或年份的列进行求和会非常繁琐且难以适应动态数据范围。本文将介绍一种灵活且高效的方法,利用 pandas 的数据重塑和聚合功能来解决这一问题。

1. 理解挑战与数据结构

假设我们有一个 Pandas DataFrame,其中包含多个实体(例如产品、地区)的数值数据,并且每个月份的数据都存储在一个以 YYYYMM 格式命名的列中。

示例原始 DataFrame:

import pandas as pddata = {    '201003': [10, 14],    '201004': [11, 19],    '201005': [14, 20],    '201006': [22, 22],    '201007': [10, 26],    '201008': [19, 11]}df_original = pd.DataFrame(data, index=['A', 'B'])print("原始 DataFrame:")print(df_original)

输出:

原始 DataFrame:   201003  201004  201005  201006  201007  201008A      10      11      14      22      10      19B      14      19      20      22      26      11

我们的目标是将这些 YYYYMM 列的数据聚合为季度和年度的总和,并生成新的数据结构。

2. 重塑数据结构:从宽到长

要灵活地处理时间信息并进行聚合,首先需要将 DataFrame 从宽格式(月份作为列)转换为长格式(月份作为行)。pandas.melt() 函数是实现这一目标的关键工具。它会将指定的列“融化”成行,创建一个新的 variable 列来存储原始列名,以及一个 value 列来存储对应的值。

# 将原始 DataFrame 重置索引,以便 'A', 'B' 成为常规列,或在 melt 中指定 id_vars# 这里我们假设索引是实体标识,希望保留,所以使用 reset_indexdf_melted = df_original.reset_index().melt(id_vars='index', var_name='YYYYMM', value_name='Value')print("n重塑后的 DataFrame (df_melted):")print(df_melted)

输出:

重塑后的 DataFrame (df_melted):  index  YYYYMM  Value0     A  201003     101     B  201003     142     A  201004     113     B  201004     194     A  201005     145     B  201005     206     A  201006     227     B  201006     228     A  201007     109     B  201007     2610    A  201008     1911    B  201008     11

现在,每个 YYYYMM 列名及其对应的值都转换为了一行,方便后续处理。id_vars=’index’ 将原始的行索引(’A’, ‘B’)保留为一个名为 ‘index’ 的新列。

3. 提取时间信息:年份和月份

在长格式数据中,YYYYMM 列包含了我们所需的年份和月份信息。我们可以使用字符串切片操作轻松地从 YYYYMM 字符串中提取这些信息。

df_melted['Year'] = df_melted['YYYYMM'].str[:4]  # 提取前4位作为年份df_melted['Month'] = df_melted['YYYYMM'].str[4:] # 提取后2位作为月份print("n提取年份和月份后的 DataFrame:")print(df_melted)

输出:

提取年份和月份后的 DataFrame:   index  YYYYMM  Value  Year Month0      A  201003     10  2010    031      B  201003     14  2010    032      A  201004     11  2010    043      B  201004     19  2010    044      A  201005     14  2010    055      B  201005     20  2010    056      A  201006     22  2010    067      B  201006     22  2010    068      A  201007     10  2010    079      B  201007     26  2010    0710     A  201008     19  2010    0811     B  201008     11  2010    08

4. 映射季度信息

为了进行季度汇总,我们需要将每个月份映射到对应的季度。这可以通过创建一个月份到季度的字典,然后使用 map() 函数应用到 Month 列上来实现。

# 定义月份到季度的映射month_quarter_map = {    '01': 1, '02': 1, '03': 1,  # 第一季度    '04': 2, '05': 2, '06': 2,  # 第二季度    '07': 3, '08': 3, '09': 3,  # 第三季度    '10': 4, '11': 4, '12': 4   # 第四季度}df_melted['Quarter'] = df_melted['Month'].map(month_quarter_map)print("n添加季度信息后的 DataFrame:")print(df_melted)

输出:

添加季度信息后的 DataFrame:   index  YYYYMM  Value  Year Month  Quarter0      A  201003     10  2010    03        11      B  201003     14  2010    03        12      A  201004     11  2010    04        23      B  201004     19  2010    04        24      A  201005     14  2010    05        25      B  201005     20  2010    05        26      A  201006     22  2010    06        27      B  201006     22  2010    06        28      A  201007     10  2010    07        39      B  201007     26  2010    07        310     A  201008     19  2010    08        311     B  201008     11  2010    08        3

5. 执行季度和年度汇总

现在,我们有了 index(原始实体)、Year 和 Quarter 列,可以轻松地使用 groupby() 函数进行聚合。

5.1 季度汇总

我们可以按 index、Year 和 Quarter 进行分组,然后对 Value 列求和。

df_quarterly_sum = df_melted.groupby(['index', 'Year', 'Quarter'])['Value'].sum().reset_index()print("n季度汇总结果:")print(df_quarterly_sum)

输出:

季度汇总结果:  index  Year  Quarter  Value0     A  2010        1     101     A  2010        2     472     A  2010        3     293     B  2010        1     144     B  2010        2     615     B  2010        3     37

如果希望季度作为列,可以使用 pivot_table 或 unstack():

df_quarterly_wide = df_quarterly_sum.pivot_table(index=['index', 'Year'], columns='Quarter', values='Value').reset_index()df_quarterly_wide.columns.name = None # 移除 columns nameprint("n季度汇总结果 (宽格式):")print(df_quarterly_wide)

输出:

季度汇总结果 (宽格式):  index  Year   1   2   30     A  2010  10  47  291     B  2010  14  61  37

5.2 年度汇总

年度汇总类似,只需按 index 和 Year 进行分组求和。

df_annual_sum = df_melted.groupby(['index', 'Year'])['Value'].sum().reset_index()print("n年度汇总结果:")print(df_annual_sum)

输出:

年度汇总结果:  index  Year  Value0     A  2010     861     B  2010    112

6. 注意事项与最佳实践

数据类型一致性: 确保 Value 列的数据类型是数值型(int 或 float),否则求和操作会出错。如果不是,可以使用 pd.to_numeric(df_melted[‘Value’], errors=’coerce’) 进行转换。处理缺失值: 在 melt 操作之前或之后,考虑如何处理原始数据中的缺失值。sum() 函数默认会跳过 NaN 值。动态时间范围: 这种方法对于动态的时间范围(例如用户选择不同的起始和结束年份/月份)非常有效,因为我们不再需要硬编码列名。性能优化: 对于非常大的数据集,melt 和 groupby 操作可能会消耗较多内存和时间。确保您的系统有足够的资源。更高级的时间序列处理: 对于更复杂的时间序列操作,例如日期偏移、频率转换等,Pandas 的 DatetimeIndex 或 PeriodIndex 提供了更强大的功能。您可以考虑将 YYYYMM 转换为 Period 对象或 datetime 对象,但对于本教程中简单的季度/年度汇总需求,字符串操作和映射已足够高效。示例:使用 PeriodIndex (可选)

# 将 YYYYMM 转换为 PeriodIndexdf_melted['Period'] = pd.to_datetime(df_melted['YYYYMM'], format='%Y%m').dt.to_period('M')# 提取年份和季度df_melted['Year_P'] = df_melted['Period'].dt.yeardf_melted['Quarter_P'] = df_melted['Period'].dt.quarter# 然后按 'index', 'Year_P', 'Quarter_P' 分组求和df_quarterly_sum_period = df_melted.groupby(['index', 'Year_P', 'Quarter_P'])['Value'].sum().reset_index()# 这种方法更健壮,尤其是在处理更复杂的日期逻辑时

7. 总结

通过 df.melt() 将宽格式的月度数据转换为长格式,结合字符串操作提取年份和月份,并创建月份到季度的映射,我们能够以一种灵活且可扩展的方式实现季度和年度数据的聚合。这种方法避免了手动指定大量列名的繁琐工作,使得数据处理流程更加自动化和高效,尤其适用于处理具有动态时间范围的数据集。

以上就是Pandas 数据重塑与时间序列聚合:从月度列到季度/年度汇总的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1373203.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 13:02:51
下一篇 2025年12月14日 13:03:04

相关推荐

  • QuantLib Python实战:零息债券收益率、零利率与结算日折扣的精确处理

    本文深入探讨了在QuantLib Python中构建收益率曲线的方法,并详细解析了零息债券的到期收益率(YTM)与零利率之间的细微差异。通过具体代码示例,文章阐明了结算日对债券折现周期的关键影响,并提供了解决这些常见混淆的专业指导,确保金融模型计算的准确性和一致性。 1. QuantLib收益率曲线…

    2025年12月14日
    000
  • 如何为Ursina中的实体对象设置自定义碰撞器

    本教程旨在指导Ursina开发者正确地为Entity对象设置自定义BoxCollider。文章将详细阐述center和size参数应相对于实体的局部坐标而非世界坐标进行定义,并强调利用Ursina内置的F10调试模式可视化碰撞器,以实现精确的调整和验证,从而解决碰撞箱尺寸或位置不正确的问题。 理解U…

    2025年12月14日
    000
  • Python中UTF-8到UTF-7编码的精细控制:处理可选直接字符

    本文深入探讨了Python中UTF-8到UTF-7编码的特殊性,特别是针对UTF-7标准中“可选直接字符”的处理。Python默认采用直接编码方式,导致与某些工具(如CyberChef)的输出不同。教程将解释这一差异,并提供一种通过手动替换字节来定制UTF-7编码输出的实用方法,以满足特定需求。 理…

    2025年12月14日
    000
  • Statsmodels回归模型单值预测指南:确保常数项处理正确

    本文详细介绍了如何使用Statsmodels库中的回归模型对单个数据点进行预测。重点阐述了在使用sm.add_constant构建模型时,预测输入也必须通过sm.add_constant处理以包含常数项,确保预测结果的准确性和模型一致性。 在构建和拟合回归模型之后,我们经常需要对新的、未见过的数据点…

    2025年12月14日
    000
  • QuantLib中零息债券YTM与零利率的差异及结算日对折现的影响解析

    本文深入探讨了在QuantLib中构建收益率曲线时,零息债券的到期收益率(YTM)与曲线零利率之间的潜在差异,并详细解析了结算日对折现周期的关键影响。通过具体代码示例,文章阐明了如何正确理解和处理这些金融建模中的细微之处,确保收益率曲线的准确构建与债券定价。 收益率曲线构建基础 在量化金融领域,收益…

    2025年12月14日
    000
  • Python模块导入路径深度解析与常见问题解决方案

    本文深入探讨Python在执行脚本时,模块导入路径(sys.path)的确定机制,特别是当直接运行子目录中的脚本时可能遇到的ModuleNotFoundError问题。文章详细解释了python script.py、python -m module和REPL模式下sys.path的不同行为,并提供了…

    2025年12月14日
    000
  • 深入理解 Python 模块导入路径与 sys.path 管理

    本文深入探讨 Python 模块导入过程中 sys.path 的确定机制,尤其是在从子目录执行脚本时常见的 ModuleNotFoundError 问题。文章详细解析了 python -m、python script.py 等不同执行方式对导入路径的影响,并提供了多种解决方案,重点推荐通过设置 PY…

    2025年12月14日
    000
  • Scapy 在 Windows 上发送数据包时混杂模式错误的解决方案

    本文旨在解决 Scapy 用户在 Windows 环境下发送数据包时遇到的“failed to set hardware filter to promiscuous mode”错误。我们将深入探讨此问题的常见原因,并提供两种有效的解决方案:升级 Npcap 驱动程序至最新版本,以及在 Scapy 配…

    2025年12月14日
    000
  • Pandas数据透视:将月度数据汇总为季度和年度列

    本教程详细介绍了如何使用Pandas高效地将DataFrame中按YYYYMM格式存储的月度数据汇总为季度和年度数据。通过数据重塑(melt)、字符串操作提取日期信息、自定义映射和分组聚合(groupby),最终将汇总结果以宽格式(新列)呈现,避免了手动硬编码列名的繁琐。 在数据分析场景中,我们经常…

    2025年12月14日
    000
  • 将Pandas月度列数据汇总至季度与年度:实战教程

    本教程详细介绍了如何使用Pandas将宽格式数据框中的月度数值列(如YYYYMM格式)高效地聚合为季度和年度汇总数据。通过数据重塑(melt)、字符串操作提取时间信息、自定义映射以及groupby聚合,即使面对动态变化的年月列,也能灵活实现数据汇总,最终生成清晰的季度和年度统计结果。 在数据分析中,…

    2025年12月14日
    000
  • Matplotlib日期数据可视化:绘制时间序列事件频率图

    本教程详细介绍了如何使用Matplotlib对包含重复日期时间的事件数据进行可视化。核心步骤包括日期数据的标准化处理(如去除秒和小时)、统计每个日期的事件发生频率、对统计结果进行排序,最终通过Matplotlib生成清晰的时间序列频率图,有效展示事件随时间变化的趋势。 在使用matplotlib对日…

    2025年12月14日
    000
  • Python中UTF-8到UTF-7编码的特殊处理:可选直接字符的实现策略

    本文探讨了在Python中将UTF-8字符串转换为UTF-7编码时,针对“可选直接字符”(如)的特殊处理。Python的内置UTF-7编码器默认使用这些字符的ASCII直接表示,而非Unicode移位编码。教程将解释这一行为,并提供一种通过字节替换实现特定Unicode移位编码的实用方法,确保输出符…

    2025年12月14日
    000
  • Pandas DataFrame月度数据按季度和年度汇总教程

    本教程旨在指导用户如何利用Pandas库将包含YYYYMM格式月度数据的宽格式DataFrame,高效地转换为季度和年度汇总数据。文章将详细介绍如何通过melt操作重塑数据、提取时间维度信息,并运用groupby和映射机制实现灵活的季度与年度聚合,最终生成结构清晰的汇总结果。 1. 引言:问题背景与…

    2025年12月14日
    000
  • QuantLib中零息债券YTM、零利率与交割日效应深度解析

    本文深入探讨了在QuantLib Python中构建收益率曲线时,零息债券的到期收益率(YTM)与零利率之间的差异,以及交割日对债券定价和折现期的影响。通过实际代码示例,文章解释了这些差异的根源,并提供了修正方法,旨在帮助读者更准确地理解和应用QuantLib进行金融建模。 1. QuantLib收…

    2025年12月14日
    000
  • Pandas高级数据处理:基于分组和条件填充新列的实践指南

    本文详细介绍了在Pandas DataFrame中,如何根据指定列(如Col1)进行分组,并基于另一列(如Col2)中的特定条件(如包含’Y’)来填充新列。我们将探讨如何利用mask函数筛选数据,结合groupby().transform(‘first&#8217…

    2025年12月14日
    000
  • 解决Python包安装中的”构建轮子”错误:深入理解版本兼容性挑战

    本文旨在解决Python包安装过程中常见的”构建轮子”(Building wheels)错误,特别是当该错误源于Python版本不兼容时。我们将深入分析错误信息,揭示旧版包对特定Python版本依赖的根源,并提供一系列实用的解决方案和最佳实践,包括如何检查包的兼容性、调整Py…

    2025年12月14日
    000
  • PyCharm 专业版与社区版如何选择

    PyCharm专业版功能更全,适合Web开发、数据科学及团队协作;社区版免费轻量,适合初学者和基础开发。根据需求选择,建议先试用专业版再决定是否购买。 PyCharm 是 JetBrains 推出的 Python 集成开发环境,广受开发者欢迎。它分为 专业版(Professional) 和 社区版(…

    2025年12月14日
    000
  • Python中按行列索引访问CSV文件数据的教程

    本文详细介绍了如何在Python中根据行和列索引访问CSV文件中的特定数据值。教程涵盖了使用Python内置的csv模块结合enumerate函数以及功能强大的pandas库两种方法,并提供了具体的代码示例,帮助读者高效地读取、处理和分析CSV数据,同时讨论了数据类型转换、性能优化和注意事项。 在数…

    2025年12月14日
    000
  • Python包安装:Wheel构建失败的根源与版本兼容性解析

    当您在安装Python包时遇到“Failed building wheel”错误,这通常是由于包与当前Python版本不兼容所致。特别是对于较旧的包,其预编译的轮子或源码构建过程可能不支持最新的Python环境。本文将深入探讨此类错误的根源,并提供选择兼容Python版本作为解决方案的指导。 理解“…

    2025年12月14日
    000
  • 如何使用Pandas规范化多层嵌套的复杂JSON数据

    本文详细介绍了如何使用Pandas库的json_normalize函数来处理具有多层嵌套结构的复杂JSON数据,并将其扁平化为规整的DataFrame。通过结合record_path、meta参数以及后续的数据后处理技巧,例如explode和列重命名,即使面对包含字典内嵌字典、列表内嵌字典等复杂场景…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信