
本教程详细介绍了如何使用Pandas将宽格式数据框中的月度数值列(如YYYYMM格式)高效地聚合为季度和年度汇总数据。通过数据重塑(melt)、字符串操作提取时间信息、自定义映射以及groupby聚合,即使面对动态变化的年月列,也能灵活实现数据汇总,最终生成清晰的季度和年度统计结果。
在数据分析中,我们经常会遇到需要将细粒度的月度数据汇总到更粗粒度的季度或年度层面的场景。尤其当数据以“宽格式”存储,即每个月度数据占据一个独立的列时(例如,列名为201003、201004等),传统的手动列求和方法会变得非常繁琐且不灵活。本教程将提供一个通用且高效的解决方案,利用pandas库的强大功能,实现自动化、动态化的月度数据聚合。
1. 数据重塑:从宽到长 (df.melt())
首先,我们需要将宽格式的月度数据转换成更适合聚合的“长格式”。df.melt()函数是实现这一目标的关键工具,它能将指定的列转换为行,从而方便后续的时间信息提取和分组聚合。
假设我们有以下示例数据框:
import pandas as pddata = { 'A': [10, 14], 'B': [14, 19], '201003': [10, 14], '201004': [11, 19], '201005': [14, 20], '201006': [22, 22], '201007': [10, 26], '201008': [19, 11]}df_original = pd.DataFrame(data)# 假设 'A' 和 'B' 是标识符列,我们只对年月列进行meltid_vars = ['A', 'B']value_vars = [col for col in df_original.columns if col.startswith('20')]df_long = df_original.melt(id_vars=id_vars, value_vars=value_vars, var_name='YYYYMM', value_name='Value')print("原始数据框:")print(df_original)print("n重塑后的数据框(部分):")print(df_long.head())
输出示例:
原始数据框: A B 201003 201004 201005 201006 201007 2010080 10 14 10 11 14 22 10 191 14 19 14 19 20 22 26 11重塑后的数据框(部分): A B YYYYMM Value0 10 14 201003 101 14 19 201003 142 10 14 201004 113 14 19 201004 194 10 14 201005 14
通过melt操作,我们将所有的年月列转换成了两列:YYYYMM(存储原列名,即年月信息)和Value(存储对应的值)。id_vars参数用于指定保持不变的标识符列。
2. 提取时间维度:年份与月份
在长格式数据框中,YYYYMM列包含了我们所需的年份和月份信息。我们可以利用字符串切片操作,从该列中分别提取出年份和月份。
df_long['Year'] = df_long['YYYYMM'].str[:4]df_long['Month'] = df_long['YYYYMM'].str[4:]print("n提取年份和月份后的数据框(部分):")print(df_long.head())
输出示例:
提取年份和月份后的数据框(部分): A B YYYYMM Value Year Month0 10 14 201003 10 2010 031 14 19 201003 14 2010 032 10 14 201004 11 2010 043 14 19 201004 19 2010 044 10 14 201005 14 2010 05
3. 计算季度信息
为了按季度进行汇总,我们需要将月份映射到对应的季度。这里可以创建一个字典作为映射表,然后使用df.map()函数将月份转换为季度。
month_quarter_map = { '01': 1, '02': 1, '03': 1, '04': 2, '05': 2, '06': 2, '07': 3, '08': 3, '09': 3, '10': 4, '11': 4, '12': 4}df_long['Quarter'] = df_long['Month'].map(month_quarter_map)print("n添加季度信息后的数据框(部分):")print(df_long.head())
输出示例:
添加季度信息后的数据框(部分): A B YYYYMM Value Year Month Quarter0 10 14 201003 10 2010 03 11 14 19 201003 14 2010 03 12 10 14 201004 11 2010 04 23 14 19 201004 19 2010 04 24 10 14 201005 14 2010 05 2
4. 按季度汇总数据
现在,我们已经有了年份和季度信息,可以轻松地使用groupby()函数进行聚合。我们可以按A、B、Year和Quarter进行分组,然后对Value列求和。
quarterly_sums = df_long.groupby(['A', 'B', 'Year', 'Quarter'])['Value'].sum().reset_index()print("n季度汇总数据:")print(quarterly_sums)
输出示例:
季度汇总数据: A B Year Quarter Value0 10 14 2010 1 101 10 14 2010 2 472 10 14 2010 3 293 14 19 2010 1 144 14 19 2010 2 615 14 19 2010 3 37
5. 按年度汇总数据
年度汇总的过程与季度汇总类似,只需按A、B和Year进行分组,然后对Value列求和。
annual_sums = df_long.groupby(['A', 'B', 'Year'])['Value'].sum().reset_index()print("n年度汇总数据:")print(annual_sums)
输出示例:
年度汇总数据: A B Year Value0 10 14 2010 861 14 19 2010 112
6. 汇总结果的可视化与进一步处理
上述步骤生成的quarterly_sums和annual_sums都是独立的DataFrame,包含了按季度和年度汇总的数据。如果需要将这些汇总结果作为新列添加到原始数据框中,或者以特定的宽格式呈现,可以考虑使用pivot_table或merge操作。
例如,将季度汇总数据转换回宽格式,以季度作为列:
# 将季度汇总数据转换为宽格式quarterly_wide = quarterly_sums.pivot_table(index=['A', 'B', 'Year'], columns='Quarter', values='Value').reset_index()quarterly_wide.columns.name = None # 清除列名中的'Quarter'# 重命名季度列以便区分quarterly_wide = quarterly_wide.rename(columns={1: 'Q1_Sum', 2: 'Q2_Sum', 3: 'Q3_Sum', 4: 'Q4_Sum'})print("n宽格式的季度汇总数据:")print(quarterly_wide)
输出示例:
宽格式的季度汇总数据: A B Year Q1_Sum Q2_Sum Q3_Sum0 10 14 2010 10.0 47.0 29.01 14 19 2010 14.0 61.0 37.0
请注意,如果某个季度没有数据,pivot_table会默认填充NaN。
注意事项与最佳实践
数据类型: 确保Value列是数值类型,否则sum()操作可能不会得到期望的结果。如果不是,可以使用df_long[‘Value’] = pd.to_numeric(df_long[‘Value’], errors=’coerce’)进行转换。errors=’coerce’会将无法转换的值设为NaN。日期格式: 本教程假设年月列名为YYYYMM格式。如果您的列名是其他日期格式,需要相应调整字符串切片或使用更强大的pd.to_datetime函数将其转换为日期时间对象,再提取年份、月份和季度。灵活性: 这种方法非常灵活,可以轻松扩展到其他时间粒度(例如,半年、十年)或自定义的时间周期。性能优化: 对于非常大的数据集,pd.to_datetime配合dt.quarter和dt.year属性通常比字符串切片和手动映射更高效。
# 更高效的日期处理方式(如果YYYYMM可以转换为日期)# df_long['Date'] = pd.to_datetime(df_long['YYYYMM'], format='%Y%m')# df_long['Year'] = df_long['Date'].dt.year# df_long['Quarter'] = df_long['Date'].dt.quarter# df_long['Month'] = df_long['Date'].dt.month # 如果还需要月份
然而,由于原始问题中的YYYYMM是列名,melt后它成为字符串,直接使用str[:4]等操作已经足够简洁高效。
总结
通过本教程,我们学习了如何利用Pandas的melt()函数将宽格式的月度数据转换为长格式,并通过字符串操作提取年份和月份信息,进而计算季度。最终,使用groupby()函数实现了按季度和年度的数据汇总。这种方法不仅解决了手动求和的痛点,还提供了一个通用、灵活且易于扩展的数据聚合框架,极大地提高了数据处理的效率和准确性。
以上就是将Pandas月度列数据汇总至季度与年度:实战教程的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1373171.html
微信扫一扫
支付宝扫一扫