Pandas数据框：高效汇总月度数据至季度与年度

程序猿 • 2025年12月14日 13:03:46 • 用户投稿 • 阅读 1

本文将详细介绍如何使用Pandas高效地将数据框中以YYYYMM格式表示的月度列数据，按行汇总为季度和年度数据。核心策略包括将宽格式数据转换为长格式（melt操作），从时间列中提取年份、月份和季度信息，然后利用groupby功能进行灵活的数据聚合，最终生成季度和年度汇总结果。

引言：处理宽格式时间序列数据

在数据分析实践中，我们经常会遇到以“宽格式”存储的时间序列数据，其中每个时间点（例如月份）对应一个独立的列。这种格式在展示时直观，但在进行跨时间维度（如季度、年度）的聚合计算时却显得笨拙。传统方法可能需要手动指定每个季度或年度包含的列名，这不仅效率低下，且难以适应动态的时间范围。本文将提供一种基于Pandas的通用解决方案，通过数据重塑和时间维度提取，实现对月度数据的自动化季度和年度汇总。

数据准备与问题概述

假设我们有一个Pandas DataFrame，其中包含多个实体（如产品A、B）在不同月份的数值数据。月份列的命名遵循YYYYMM格式。

示例数据：

import pandas as pddata = {    '201003': [10, 14],    '201004': [11, 19],    '201005': [14, 20],    '201006': [22, 22],    '201007': [10, 26],    '201008': [19, 11],    '201101': [5, 8],    '201102': [7, 12],    '201103': [9, 15]}df_original = pd.DataFrame(data, index=['A', 'B'])print("原始DataFrame:")print(df_original)

输出：

原始DataFrame:   201003  201004  201005  201006  201007  201008  201101  201102  201103A      10      11      14      22      10      19       5       7       9B      14      19      20      22      26      11       8      12      15

我们的目标是：

将每个实体（A、B）的月度数据汇总为季度数据（例如2010年第二季度、2010年第三季度）。将每个实体（A、B）的月度数据汇总为年度数据（例如2010年、2011年）。并且，这个过程应该是动态的，无需手动指定具体的月份列。

核心策略：从宽到长的转换 (melt)

处理宽格式时间序列数据的关键一步是将其转换为“长格式”。Pandas的melt()函数是实现这一转换的强大工具。它将指定的列（这里是所有的月份列）“融化”成两列：一列包含原始列名（即YYYYMM），另一列包含对应的值。为了保留原始的行标识符（’A’和’B’），我们需要先将其转换为一个常规列，再作为id_vars参数传递给melt()。

# 将索引转换为常规列，以便在melt操作中保留df_melted = df_original.reset_index().rename(columns={'index': 'ID'})# 使用melt函数将月份列转换为行# id_vars: 不进行融化的列，这里是我们的实体ID# var_name: 新的变量列的名称，将包含原始的YYYYMM列名# value_name: 新的值列的名称，将包含原始的数值df_long = df_melted.melt(id_vars='ID', var_name='YYYYMM', value_name='Value')print("n转换后的长格式DataFrame:")print(df_long.head())

输出：

转换后的长格式DataFrame:  ID  YYYYMM  Value0  A  201003     101  B  201003     142  A  201004     113  B  201004     194  A  201005     14

提取时间维度信息

在长格式数据中，所有的月份信息都集中在YYYYMM列。我们可以利用字符串切片操作，从中提取出年份和月份。

# 从YYYYMM列中提取年份df_long['Year'] = df_long['YYYYMM'].str[:4]# 从YYYYMM列中提取月份df_long['Month'] = df_long['YYYYMM'].str[4:]print("n提取年份和月份后的DataFrame:")print(df_long.head())

输出：

提取年份和月份后的DataFrame:  ID  YYYYMM  Value  Year Month0  A  201003     10  2010    031  B  201003     14  2010    032  A  201004     11  2010    043  B  201004     19  2010    044  A  201005     14  2010    05

计算季度信息

为了计算季度汇总，我们需要将月份映射到对应的季度。我们可以创建一个字典来定义这种映射关系，然后使用map()方法将其应用到Month列。

# 定义月份到季度的映射month_quarter_map = {    '01': 1, '02': 1, '03': 1,  # Q1    '04': 2, '05': 2, '06': 2,  # Q2    '07': 3, '08': 3, '09': 3,  # Q3    '10': 4, '11': 4, '12': 4   # Q4}# 应用映射创建Quarter列df_long['Quarter'] = df_long['Month'].map(month_quarter_map)print("n添加季度信息后的DataFrame:")print(df_long.head())

输出：

添加季度信息后的DataFrame:  ID  YYYYMM  Value  Year Month  Quarter0  A  201003     10  2010    03        11  B  201003     14  2010    03        12  A  201004     11  2010    04        23  B  201004     19  2010    04        24  A  201005     14  2010    05        2

执行季度和年度汇总

现在数据已经准备就绪，我们可以使用groupby()方法结合sum()进行汇总。

1. 季度汇总：我们将按ID、Year和Quarter进行分组，然后对Value列求和。

df_quarterly_sums = df_long.groupby(['ID', 'Year', 'Quarter'])['Value'].sum().reset_index()print("n季度汇总结果:")print(df_quarterly_sums)

输出：

季度汇总结果:  ID  Year  Quarter  Value0  A  2010        1     101  A  2010        2     472  A  2010        3     293  A  2011        1     214  B  2010        1     145  B  2010        2     616  B  2010        3     377  B  2011        1     35

如果希望将季度汇总结果转换为更接近原始宽格式的形态（例如，每个季度一个列），可以使用pivot_table或unstack：

df_quarterly_pivot = df_quarterly_sums.pivot_table(    index=['ID', 'Year'],    columns='Quarter',    values='Value',    fill_value=0 # 填充没有数据的季度为0).add_prefix('Q').reset_index()print("n季度汇总结果（宽格式）:")print(df_quarterly_pivot)

输出：

季度汇总结果（宽格式）:  ID  Year  Q1  Q2  Q30  A  2010  10  47  291  A  2011  21   0   02  B  2010  14  61  373  B  2011  35   0   0

2. 年度汇总：我们将按ID和Year进行分组，然后对Value列求和。

df_annual_sums = df_long.groupby(['ID', 'Year'])['Value'].sum().reset_index()print("n年度汇总结果:")print(df_annual_sums)

输出：

年度汇总结果:  ID  Year  Value0  A  2010     861  A  2011     212  B  2010    1123  B  2011     35

同样，年度汇总也可以转换为宽格式：

df_annual_pivot = df_annual_sums.pivot_table(    index='ID',    columns='Year',    values='Value',    fill_value=0).add_prefix('Year_').reset_index()print("n年度汇总结果（宽格式）:")print(df_annual_pivot)

输出：

年度汇总结果（宽格式）:  ID  Year_2010  Year_20110  A         86         211  B        112         35

注意事项

索引处理： 在使用melt()之前，确保你的行标识符被正确地处理。如果你的DataFrame有命名索引，reset_index()是将其转换为常规列的有效方法。如果索引是默认的整数索引，且你不需要保留它作为聚合维度，则可以省略reset_index()，但要留意melt的默认行为。数据类型： YYYYMM列在提取年份和月份后，它们将是字符串类型。在进行groupby操作时，字符串类型的Year和Quarter通常不会引起问题，但如果需要进行数值比较或计算，可能需要显式转换为整数类型（例如df_long[‘Year’].astype(int)）。性能考量： 对于非常大的DataFrame，melt操作可能会消耗较多的内存。如果数据量巨大，可以考虑分块处理或使用更内存高效的数据结构。日期时间对象的优势： 虽然本教程使用了字符串切片和映射，但更健壮的方法是将YYYYMM列转换为Pandas的datetime对象。例如，pd.to_datetime(df_long[‘YYYYMM’], format=’%Y%m’)可以创建日期时间列，然后可以直接访问.dt.year, .dt.month, .dt.quarter等属性，这在处理更复杂的日期逻辑时会更加方便和安全。

总结

通过melt()、字符串操作和groupby()的组合使用，我们可以优雅且高效地将宽格式的月度数据汇总为季度和年度数据。这种方法避免了手动硬编码列名的繁琐，使得数据分析流程更加自动化和可扩展。掌握这种数据重塑和聚合技巧，对于处理时间序列数据的数据科学家和分析师来说至关重要。

以上就是Pandas数据框：高效汇总月度数据至季度与年度的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1373215.html

yy 工具编码

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Scapy混杂模式错误：诊断与解决方案

上一篇 2025年12月14日 13:03:43

Python模块导入路径深度解析：理解sys.path与脚本执行行为

下一篇 2025年12月14日 13:03:52

好文分享

在 JavaScript 中移动 TodoList 中的“正在进行”任务如何解决？

javascript 中使用 dom 更新 todolist 在您的问题中，您遇到了在使用 javascript 通过 dom 更新 todolist 时遇到困难的问题。具体来说，您无法将“正在进行”的任务移动到“已完成”部分。问题原因在您提供的 javascript 代码中，拼写错误导致“正在…

程序猿
2025年12月24日
0000
好文分享

在使用 JavaScript 实现的 TodoList 中，如何正确判断 Checkbox 点击事件，从而归类任务？

使用 javascript 实现 todolist，点击 checkbox 后无法正确归类任务问题描述：在使用 javascript 实现的 todolist 中，点击“正在进行”任务中的 checkbox，无法将任务自动归类到“已完成”任务列表。原因分析：在提供的代码中，发现有一个单词拼写错误…

程序猿
2025年12月24日
4000
好文分享

css怎么设置文件编码

在css中，可以使用“@charset”规则来设置编码，语法格式“@charset “字符编码类型”;”。“@charset”规则可以指定样式表中使用的字符编码，它必须是样式表中的第一个元素，并且不能以任何字符开头。本教程操作环境：windows7系统、CSS3&&…

程序猿
2025年12月24日
0000
好文分享

响应式HTML5按钮适配不同屏幕方法【方法】

实现响应式HTML5按钮需五种方法：一、CSS媒体查询按max-width断点调整样式；二、用rem/vw等相对单位替代px；三、Flexbox控制容器与按钮伸缩；四、CSS变量配合requestAnimationFrame优化的JS动态适配；五、Tailwind等框架的响应式工具类。如果您希望H…

程序猿
2025年12月23日
1000
好文分享

html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

HTML5无法直接导出video标签内容，需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制；FFmpeg.wasm支持MP4等格式及精细编码控制；服务端方案适合高负载场景。如果您希望在网页…

程序猿
2025年12月23日
4000
好文分享

html5怎么加php_html5用Ajax与PHP后端交互实现数据传递【交互】

HTML5不能直接运行PHP，需通过Ajax与PHP通信：前端用fetch发送请求，PHP接收处理并返回JSON，前端解析响应更新DOM；注意跨域、编码、CSRF防护和输入过滤。 HTML5 本身是前端标记语言，不能直接运行 PHP 代码，但可以通过 Ajax（异步 JavaScript）与 PHP…

程序猿
2025年12月23日
3000
好文分享

node.js怎么运行html_node.js运行html步骤【指南】

答案是使用Node.js内置http模块、Express框架或第三方工具serve可快速搭建服务器预览HTML文件。首先通过http模块创建服务器并读取index.html返回响应；其次用Express初始化项目并配置静态文件服务；最后利用serve工具全局安装后一键启动服务器，三种方式均在浏览器访…

程序猿
2025年12月23日
4000
html5怎么引用js_HTML5用外链或内嵌JS代码引用脚本【引用】

HTML5中执行JavaScript需通过外链或内嵌方式引入：一、外链用，支持defer/async；二、内嵌将代码写入间，推荐置于body底部；三、type属性默认可省略；四、模块化使用type=”module”支持ES6 import/export。 <img sr…

程序猿
好文分享 2025年12月23日
1000
好文分享

html5游戏怎么修改_HT5改JS逻辑或资源文件调整游戏玩法效果【修改】

需直接编辑核心JavaScript代码或替换图片、音频等资源文件；先用浏览器开发者工具的Sources面板定位含game、main等关键词的.js文件，再搜索score++、if (health等逻辑片段进行修改。如果您下载了某个HTML5游戏的本地文件，希望调整其玩法逻辑或替换资源以改变视觉效果…

程序猿
2025年12月23日
1000
好文分享

html5怎么重叠图片_html5用position:absolute或z-index让图片重叠【重叠】

在HTML5中实现图片重叠需结合CSS定位与层叠控制：一、用position:absolute+top/left精确定位，父容器设position:relative；二、用z-index设定堆叠顺序（需已定位）；三、用transform:translate()实现无文档流干扰的偏移重叠；四、用CSS…

程序猿
2025年12月23日
3000
好文分享

html5怎么设置月份_HTML5用input type=”month”让用户选择年月月份【设置】

HTML5的input type=”month”提供原生年月选择器，格式为“YYYY-MM”，支持value默认值、min/max范围限制、name表单提交，并需JavaScript降级兼容旧浏览器。如果您希望在网页中提供一个简洁的年月选择控件，HTML5 的 input …

程序猿
2025年12月23日
3000
好文分享

html5文件运行不出来怎么回事_析html5文件运行失败原因【解析】

首先检查文件扩展名和编码格式，确保为.html且使用UTF-8编码；接着验证HTML5结构完整性，包含及正确闭合的标签；然后排查外部资源路径是否正确，利用开发者工具查看404错误；排除浏览器兼容性问题，优先在现代浏览器中测试并避免未广泛支持的API；检查JavaScript语法错误与执行顺序，确保脚…

程序猿
2025年12月23日
1000
好文分享

html5如何建立站点_HTML5站点建立步骤与网站搭建技巧【指南】

HTML5网站搭建需五步：一、建my-website目录及css/js/images子目录，含index.html；二、写标准HTML5骨架，含DOCTYPE、lang、meta、语义化标签；三、外链CSS与defer/async脚本；四、用http-server启本地服务；五、用email/num…

程序猿
2025年12月23日
0000
好文分享

html5怎么读取文件_html5用FileReader API读取本地文件内容或属性【读取】

HTML5的FileReader API支持读取本地文件内容及获取基本信息：一、通过input type=”file”获取File对象；二、用readAsText读取文本；三、用readAsDataURL生成Data URL预览资源；四、用readAsArrayBuffer读…

程序猿
2025年12月23日
1000
好文分享

jimdo怎么插入html5时间轴_jimdo时间轴html5代码与节点样式【实操】

Jimdo网站需用自定义HTML5代码实现时间轴：一、内联HTML+CSS轻量嵌入；二、外链CSS+语义化HTML便于复用；三、调用timeline-js-lite库支持交互；四、纯CSS方案零依赖高性能。如果您希望在 Jimdo 网站中呈现可视化的时间发展脉络，但默认编辑器不支持原生时间轴组件，…

程序猿
2025年12月23日
0000
好文分享

html5怎么写css_html5用style标签内嵌或外部css文件编写样式【编写】

可通过内嵌CSS、引入外部CSS文件或使用行内style属性为HTML5页面元素添加样式：一、用标签在中写CSS；二、用标签引用外部.css文件；三、在元素标签中直接写style属性。如果您希望在HTML5文档中为页面元素添加样式，则可以通过内嵌CSS或引入外部CSS文件来实现。以下是具体操作方法…

程序猿
2025年12月23日
0000
好文分享

html5怎么设置黑体_html5用CSS font-family设黑体或font-weight加粗【设置】

在HTML5中实现黑体及加粗需用CSS的font-family和font-weight：一、font-family按优先级列“SimHei”,“Microsoft YaHei”,“Heiti SC”,sans-serif；二、font-weight用700或bold；三、组合声明并注意继承；四、可用…

程序猿
2025年12月23日
1000
好文分享

html5怎么去除黑点_html5用list-style:none去除ul/ol列表黑点【去除】

可通过 CSS 的 list-style 属性隐藏列表标记：一、list-style: none 最常用；二、list-style-type: none 精准移除符号；三、重置 list-style 全部子属性应对样式干扰；四、display: inline-block 配合 list-style:…

程序猿
2025年12月23日
1000
好文分享

html5怎么引入字体_HTML5用@font-face引入本地或网络字体文件【引入】

需用CSS的@font-face规则加载自定义字体，步骤包括：准备WOFF2/WOFF/TTF多格式文件并存放至项目目录；在CSS中为每种字重和样式单独声明@font-face；通过font-family应用字体；可选Google Fonts外链方式；添加font-display: swap缓解FO…

程序猿
2025年12月23日
1000
好文分享

html5怎么引用图标_html5用iconfont或img标签引用图标文件显示【引用】

HTML5图标显示异常可因路径错误、引用不当或字体未加载，解决方法包括：一、用iconfont类名引用；二、用Unicode字符引用；三、用img标签引用位图；四、内联SVG图标；五、预加载字体文件。如果您在HTML5页面中需要显示图标，但图标无法正常加载或显示效果不符合预期，则可能是由于图标文件…

程序猿
2025年12月23日
0000