Pandas DataFrame月度数据按季度和年度汇总教程

程序猿 • 2026年5月10日 11:21:16 • 用户投稿 • 阅读 0

本教程旨在指导用户如何利用Pandas库将包含YYYYMM格式月度数据的宽格式DataFrame，高效地转换为季度和年度汇总数据。文章将详细介绍如何通过melt操作重塑数据、提取时间维度信息，并运用groupby和映射机制实现灵活的季度与年度聚合，最终生成结构清晰的汇总结果。

1. 引言：问题背景与解决方案概述

在数据分析实践中，我们经常会遇到以“宽格式”存储的时间序列数据，其中每个时间点（例如月份）作为独立的列存在。例如，一个DataFrame可能包含多行实体（如产品、区域），而每个实体在不同月份的数值数据则分散在形如YYYYMM的列中。当需要对这些月度数据进行季度或年度层面的汇总分析时，直接对特定列进行硬编码求和会变得非常繁琐且难以维护，尤其当数据的时间范围动态变化时。

本教程将介绍一种灵活且强大的Pandas方法，通过数据重塑（melt）、字符串操作提取时间信息，以及groupby聚合，实现对这类月度数据的自动化季度和年度汇总。

2. 数据准备与转换：从宽格式到长格式

首先，我们创建一个示例DataFrame来模拟原始的宽格式月度数据。为了能够对每行实体（如A、B）进行独立汇总，我们需要在melt操作中保留这些实体标识。

import pandas as pd# 示例数据data = {    '201003': [10, 14],    '201004': [11, 19],    '201005': [14, 20],    '201006': [22, 22],    '201007': [10, 26],    '201008': [19, 11],    '201101': [5, 8],    '201102': [7, 12],    '201103': [9, 15]}df_original = pd.DataFrame(data, index=['A', 'B'])print("原始DataFrame:")print(df_original)

输出示例:

原始DataFrame:   201003  201004  201005  201006  201007  201008  201101  201102  201103A      10      11      14      22      10      19       5       7       9B      14      19      20      22      26      11       8      12      15

为了方便聚合，我们需要将这些表示月份的列转换成行。Pandas的melt函数是实现这一目标的关键。我们需要先将DataFrame的索引重置为普通列，然后指定哪些列作为标识符（id_vars），哪些列需要被“融化”（默认是除了id_vars之外的所有列）。

# 将索引重置为列，并进行melt操作df_melted = df_original.reset_index().melt(    id_vars='index',         # 指定'index'列作为标识符，不被融化    var_name='YYYYMM',       # 新的变量列的名称，存储原列名（即YYYYMM）    value_name='Value'       # 新的值列的名称，存储原列中的值)df_melted = df_melted.rename(columns={'index': 'ID'}) # 将'index'列重命名为'ID'，更具可读性print("n融化后的DataFrame:")print(df_melted.head())

输出示例:

融化后的DataFrame:  ID  YYYYMM  Value0  A  201003     101  B  201003     142  A  201004     113  B  201004     194  A  201005     14

3. 提取时间维度信息：年份、月份与季度

在融化后的DataFrame中，YYYYMM列包含了我们需要的所有时间信息。我们可以通过字符串切片轻松提取年份和月份，并进一步将月份映射到对应的季度。

# 从YYYYMM列中提取年份和月份df_melted['Year'] = df_melted['YYYYMM'].str[:4]df_melted['Month'] = df_melted['YYYYMM'].str[4:]# 创建月份到季度的映射字典month_quarter_map = {    '01': 1, '02': 1, '03': 1,  # 第一季度    '04': 2, '05': 2, '06': 2,  # 第二季度    '07': 3, '08': 3, '09': 3,  # 第三季度    '10': 4, '11': 4, '12': 4   # 第四季度}# 使用map函数创建Quarter列df_melted['Quarter'] = df_melted['Month'].map(month_quarter_map)print("n添加时间维度后的DataFrame:")print(df_melted.head())

输出示例:

添加时间维度后的DataFrame:  ID  YYYYMM  Value  Year Month  Quarter0  A  201003     10  2010    03        11  B  201003     14  2010    03        12  A  201004     11  2010    04        23  B  201004     19  2010    04        24  A  201005     14  2010    05        2

4. 按季度汇总数据

有了ID、Year和Quarter列，我们现在可以轻松地按季度汇总数据。我们使用groupby函数指定聚合的维度，然后对Value列进行求和。

# 按ID、年份和季度汇总数据quarterly_summary = df_melted.groupby(['ID', 'Year', 'Quarter'])['Value'].sum().reset_index()print("n按季度汇总结果:")print(quarterly_summary)

输出示例:

按季度汇总结果:  ID  Year  Quarter  Value0  A  2010        1     101  A  2010        2     472  A  2010        3     293  A  2011        1     214  B  2010        1     145  B  2010        2     616  B  2010        3     377  B  2011        1     35

(注：示例数据中2010年Q1只有3月份数据，因此Value为10和14。2010年Q2包含4、5、6月，2010年Q3包含7、8月，2011年Q1包含1、2、3月。)

5. 按年度汇总数据

与季度汇总类似，年度汇总则更为简单，只需根据ID和Year进行分组求和。

# 按ID和年份汇总数据annual_summary = df_melted.groupby(['ID', 'Year'])['Value'].sum().reset_index()print("n按年度汇总结果:")print(annual_summary)

输出示例:

按年度汇总结果:  ID  Year  Value0  A  2010     861  A  2011     212  B  2010    1123  B  2011     35

6. 结果重塑（可选）：将汇总结果转换回宽格式

如果用户希望将季度或年度汇总的结果也以宽格式（例如，每个季度或年份作为一列）呈现，可以使用pivot_table函数。

# 将季度汇总结果转换为宽格式quarterly_wide_summary = quarterly_summary.pivot_table(    index='ID',    columns=['Year', 'Quarter'],    values='Value').reset_index()# 重命名列以便更好地展示quarterly_wide_summary.columns = [f'{col[0]}_Q{col[1]}' if isinstance(col, tuple) else col for col in quarterly_wide_summary.columns]quarterly_wide_summary = quarterly_wide_summary.rename(columns={'ID_': 'ID'}) # 修正ID列名print("n宽格式的季度汇总结果:")print(quarterly_wide_summary)

输出示例:

宽格式的季度汇总结果:  ID  2010_Q1  2010_Q2  2010_Q3  2011_Q10  A     10.0     47.0     29.0     21.01  B     14.0     61.0     37.0     35.0

7. 注意事项与最佳实践

数据类型检查： 在进行melt和聚合操作之前，请确保你的数值列（即Value列）是数值类型（例如int或float）。如果它们是字符串，需要先进行类型转换：df_melted[‘Value’] = pd.to_numeric(df_melted[‘Value’])。更强大的日期时间处理： 对于更复杂的日期时间操作（例如，处理不同日期格式、计算时间差、按周聚合等），强烈建议将YYYYMM列转换为Pandas的datetime对象：pd.to_datetime(df_melted[‘YYYYMM’], format=’%Y%m’)。这样可以利用dt访问器获取年份、月份、季度等信息，更加健壮和灵活。处理缺失值： 在聚合之前，考虑如何处理Value列中的缺失值（NaN）。sum()函数默认会跳过NaN，但其他聚合函数可能需要不同的处理（例如，使用fillna(0)或dropna()）。性能考量： 对于非常大的数据集，melt操作可能会消耗较多内存。在某些情况下，如果只需要年度汇总且列名格式固定，可以考虑使用更直接的字符串匹配和列选择方法进行聚合，以避免完全重塑整个DataFrame。然而，对于季度汇总，melt通常是最高效且最通用的方法。

8. 总结

本教程详细介绍了如何利用Pandas库将宽格式的月度数据转换为季度和年度汇总数据。核心步骤包括：

数据重塑： 使用df.reset_index().melt()将宽格式数据转换为长格式，为后续聚合奠定基础。时间维度提取： 通过字符串切片从YYYYMM列中提取Year和Month，并利用映射字典创建Quarter列。数据聚合： 运用groupby()结合sum()函数，轻松实现按季度和年度的灵活汇总。结果重塑（可选）： 使用pivot_table()将汇总结果转换回宽格式，以满足特定的报告需求。

掌握这些Pandas技巧，将极大地提高处理和分析时间序列数据的效率和灵活性。

以上就是Pandas DataFrame月度数据按季度和年度汇总教程的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1373165.html

yy 编码聚合函数

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

NumPy高效处理数组：查找并替换重复值与连续模式

上一篇 2026年5月10日 11:21:16

使用 tox 管理多 Python 版本测试环境

下一篇 2026年5月10日 11:21:16

用户投稿

怎么在PHP代码中实现图片上传功能_PHP图片上传功能实现与安全处理教程

首先创建含enctype的HTML表单，再用PHP接收文件，检查目录、移动临时文件，验证类型与大小，生成唯一文件名，并调整php.ini限制以确保上传成功。如果您尝试在PHP项目中添加图片上传功能，但服务器无法正确接收或保存文件，则可能是由于表单配置、文件处理逻辑或安全限制的问题。以下是实现该功能…

程序猿
2026年5月10日
1000
用户投稿

获取日期中的周数：CodeIgniter 教程

本教程旨在帮助开发者在 CodeIgniter 框架中，从日期字符串中准确提取周数。我们将使用 PHP 内置的 DateTime 类，并提供详细的代码示例和注意事项，确保您能够轻松地在项目中实现此功能。使用 DateTime 类获取周数 PHP 的 DateTime 类提供了一种便捷的方式来处理日…

程序猿
2026年5月10日
0000
用户投稿

PHP动态生成表单输入与POST数据获取实践指南

本教程详细阐述了如何在php中根据动态数据源（如数据库值）生成多个表单输入框，并演示了如何通过post方法准确无误地获取这些动态生成的输入值。文章强调了正确的输入框命名策略，避免了常见的命名误区，并提供了完整的代码示例，确保开发者能够高效处理动态表单数据。动态生成表单输入在Web开发中，我们经常…

程序猿
2026年5月10日
0000
用户投稿

PHP多维数组到复杂XML结构的SOAP序列化实践

本文旨在解决php多维数组向复杂soap xml结构序列化时遇到的“无法序列化结果”问题。通过深入理解soap xml的结构要求，包括命名空间和类型属性，文章将指导您如何构建符合特定xml schema的php关联数组。我们将利用`spatie/array-to-xml`库，详细演示其安装与使用方法…

程序猿
2026年5月10日
0000
用户投稿

Go语言连接外部MySQL数据库：DSN配置与常见错误解析

本文详细阐述了go语言使用`go-sql-driver/mysql`驱动连接外部mysql数据库的正确方法。重点介绍了数据源名称（dsn）的规范格式，特别是主机地址部分的配置，以避免常见的“getaddrinfow: the specified class was not found.”等网络解析错…

程序猿
2026年5月10日
0000
用户投稿

php超过字数怎么解密_用PHP分段处理超字数加密数据并解密教程【技巧】

分段解密超长加密数据需先确定算法限制，再通过OpenSSL扩展支持，编写函数逐段解密并拼接结果。1、明确加密算法与密钥对应的分段大小；2、启用php.ini中openssl扩展并重启服务；3、自定义函数读取私钥、base64解码密文、循环截取块解密；4、确保去除密文换行符并按原加密块大小切分；5、解…

程序猿
2026年5月10日
0000
用户投稿

php代码如何操作JSON数据_php代码解析和生成JSON的方法

答案：PHP中处理JSON需使用json_encode()和json_decode()函数。1、将数组转为JSON字符串时，用json_encode()并检查返回值是否为false；2、解析JSON字符串时，调用json_decode()并设第二参数为true返回数组，false则返回对象；3、处理…

程序猿
2026年5月10日
0000
用户投稿

PHP代码注入检测日志分析_PHP代码注入日志检测方法详解

答案：日志分析是发现PHP代码注入的关键手段，主要通过Web服务器访问日志、PHP错误日志、PHP-FPM日志及应用自定义日志等多源数据，结合grep、ELK、WAF等工具识别含eval()、system()、Base64编码、目录遍历等特征的异常请求，并建立基线、设置检测规则与自动化告警，配合事件…

程序猿
2026年5月10日
0000
用户投稿

c++中sizeof运算符的用法和常见陷阱 _c++ sizeof使用技巧及陷阱解析

sizeof运算符在编译时计算类型或对象的字节大小，返回size_t类型，常用于获取数据大小、数组元素个数及内存操作；但存在数组传参退化为指针导致失效、对指针无法获知动态内存大小、表达式不求值、结构体因对齐产生填充等常见陷阱；需结合模板、显式传参、对齐控制等方式规避问题，提升代码可移植性和安全性。 …

程序猿
2026年5月10日
0000
用户投稿

C#如何进行网络编程？Socket与TCP/IP通信编程实例详解

C#通过Socket类实现TCP通信，首先服务器绑定IP和端口并监听，客户端发起连接，双方通过Send/Receive收发数据，最后关闭连接。 C# 进行网络编程主要依赖于 System.Net 和 System.Net.Sockets 命名空间，其中最核心的是使用 Socket 类实现基于 TCP…

程序猿
2026年5月10日
0000
用户投稿

如何测试html5编码_测试HTML5页面编码兼容性方法【编码测试】

HTML5页面编码兼容性测试需五步：一查meta charset是否正确且前置；二验HTTP响应头Content-Type charset是否为utf-8；三用file或chardet工具探测实际编码；四跨浏览器测试URL参数中中文、Emoji解析；五通过W3C验证服务检查编码声明与字节一致性。如…

程序猿
2026年5月10日
1000
用户投稿

Golang如何提升TCP长连接处理效率_Golang TCP长连接处理性能优化实践详解

答案：通过非阻塞I/O、单Goroutine双工模型、sync.Pool对象复用、TCP_NODELAY优化及高效心跳管理，结合系统调优，可显著提升Golang百万级TCP长连接处理效率。在高并发网络服务场景中，TCP长连接的处理效率直接影响系统的吞吐能力和资源消耗。Golang凭借其轻量级Gor…

程序猿
2026年5月10日
0000
用户投稿

Windows用Prettier一键格式化乱码HTML代码

首先确保HTML文件保存为UTF-8编码，使用文本编辑器另存为UTF-8格式；其次在命令行执行chcp 65001切换至UTF-8代码页后再运行Prettier；接着在VS Code中设置files.encoding为utf8并启用files.autoGuessEncoding；最后可通过Node.…

程序猿
2026年5月10日
0000
用户投稿

PHP动态网页数据库备份恢复_PHP动态网页MySQL数据库备份教程

答案：PHP动态网页的MySQL数据库备份与恢复需通过定期导出SQL文件并安全存储来保障数据安全，核心方法包括使用mysqldump命令行工具实现高效灵活的自动化备份，利用phpMyAdmin图形化工具进行手动导出导入以降低操作门槛，以及通过PHP脚本调用系统命令将备份过程集成到应用中；恢复时可采用…

程序猿
2026年5月10日
0000
用户投稿

html如何制作水印_HTML水印（文字/图片）添加与设置方法

使用CSS和HTML可实现网页水印，方法包括：一、通过background-image与data URI嵌入斜向文字水印；二、利用伪元素结合transform旋转生成叠加文字层；三、插入img标签或背景图设置固定位置图片水印；四、用Canvas绘制多行斜纹并转Base64作背景；五、通过禁用右键、屏…

程序猿
2026年5月10日
1000
用户投稿

PHP中验证Base64编码字符串有效性的实用指南

本教程将详细介绍在PHP中如何有效验证Base64编码字符串的有效性，特别是针对常见的数据URI格式（如data:image/jpeg;base64,…）。我们将探讨利用base64_decode和base64_encode函数进行往返验证的核心技术，并提供实用的代码示例及重要注意事项，…

程序猿
2026年5月10日
0000
用户投稿

PHP处理大型文本文件转JSON：内存溢出诊断与优化实践

本文深入探讨了PHP在将大型文本文件转换为结构化JSON时可能遇到的内存溢出问题。文章详细指导读者如何通过phpinfo()诊断并正确配置PHP的memory_limit，包括检查php.ini和.htaccess的潜在冲突，并提供了逐步增加内存限制的建议。同时，文章也分析了特定数据格式下内存消耗的…

程序猿
2026年5月10日
1000
用户投稿

远程MySQL数据库连接指南：从本地PHP应用访问GCP实例数据库

本文详细指导如何在本地php应用中连接到google cloud platform (gcp) 虚拟机实例上的远程mysql数据库。教程涵盖了数据库连接参数的配置、使用php pdo建立连接的方法、gcp环境下的网络配置要点，以及常见的安全和故障排除建议，旨在帮助开发者顺利实现跨环境的数据库通信。 …

程序猿
2026年5月10日
0000
用户投稿

JavaScript中的标签模板字面量（Tagged Templates）有哪些高级用法？

标签模板通过自定义函数实现复杂逻辑，如html函数转义防止XSS，css函数生成唯一类名封装样式，结合哈希值隔离组件样式，确保安全与模块化。标签模板字面量不只是字符串拼接工具，它能结合函数实现更复杂的逻辑处理。通过自定义标签函数，你可以解析模板中的表达式和静态部分，从而实现如国际化、样式封装、安全…

程序猿
2026年5月10日
0000
用户投稿

在PHP中实现MySQL数据插入时避免重复记录的策略

本文将探讨在php应用中向mysql数据库插入数据时，如何有效避免重复记录的产生。针对当主键或唯一索引字段值已存在的情况，我们将介绍使用`insert ignore`语句的策略，以确保数据完整性并防止不必要的重复插入，从而简化数据管理逻辑。引言：数据完整性与重复记录问题在数据库管理中，数据完整性…

程序猿
2026年5月10日
0000