Pandas groupby 性能优化：实现高效数据聚合

程序猿 • 2025年12月15日 00:03:37 • 好文分享 • 阅读 0

本文深入探讨了pandas `groupby`操作在处理大规模数据时可能出现的性能瓶颈，特别是当结合`agg`方法进行多重聚合或使用自定义函数时。文章提出并详细演示了一种“懒惰式groupby”的优化策略，通过预先创建`groupby`对象，然后对每个列单独执行聚合操作，显著提升了数据聚合的效率。文中提供了具体的代码示例和性能对比，并讨论了如何灵活控制输出列名结构，旨在帮助用户编写更高效的pandas代码。

理解 Pandas groupby 的性能挑战

Pandas groupby 是数据分析中一个极其强大的工具，用于根据一个或多个键对数据进行分组，然后对每个组执行聚合操作。然而，当数据集规模增大，并且聚合操作变得复杂时，其性能可能会显著下降。常见的慢速模式之一是结合 agg 方法进行多列、多类型或包含自定义函数的聚合。

考虑以下一个典型的使用场景，我们希望根据 specimen 和 delta_t 列对数据进行分组，并计算 measuremnt 列的均值、75%分位数和最大值，以及 lag 列的均值。

import pandas as pdimport numpy as np# 模拟数据集data = {    'delta_t': np.random.randint(0, 301, 100000), # 增加数据量以凸显性能问题    'specimen': np.random.choice(['X', 'Y', 'Z'], 100000),    'measuremnt': np.random.rand(100000),    'lag': np.random.rand(100000)}df = pd.DataFrame(data)# 定义一个自定义的75%分位数函数def q75(x):    return x.quantile(0.75)# 原始的聚合代码# df_result = df.groupby(['specimen', 'delta_t']).agg({#     'measuremnt': ['mean', q75, 'max'],#     'lag': 'mean'# }).reset_index()

当上述代码应用于大型DataFrame时，用户可能会观察到执行时间随数据量呈非线性增长，导致处理效率低下。这通常是由于 agg 方法在内部处理多重聚合和自定义函数时，可能需要进行多次数据迭代或不必要的类型转换。

优化策略：懒惰式 groupby (Lazy Groupby)

为了解决 groupby().agg() 可能带来的性能问题，我们可以采用一种“懒惰式 groupby”的优化策略。其核心思想是：首先创建 groupby 对象，然后对该对象中的每个需要聚合的列单独执行聚合函数，最后将这些结果组合成一个新的DataFrame。这种方法通常能够显著减少内部开销，因为它允许Pandas更直接地优化每个独立的聚合操作。

1. 性能对比与优化实现

让我们通过具体的代码示例来展示这种优化方法及其带来的性能提升。

原始 agg 方法的性能（示例，假设数据量增大）：

# %%timeit -n 10# df_result_original = df.groupby(['specimen', 'delta_t']).agg({#     'measuremnt': ['mean', q75, 'max'],#     'lag': 'mean'# }).reset_index()# 假设其执行时间为 40-50 毫秒 (针对10万行数据)

优化后的“懒惰式 groupby”实现：

# %%timeit -n 10groups = df.groupby(['specimen', 'delta_t'])df_result_optimized = pd.DataFrame({    'measurement_mean': groups['measuremnt'].mean(),    'measurement_q75': groups['measuremnt'].quantile(.75),    'measurement_max': groups['measuremnt'].max(),    'lag_mean': groups['lag'].mean()}).reset_index()# 假设其执行时间为 2-3 毫秒 (针对10万行数据)，性能提升显著print(df_result_optimized.head())

输出示例：

  specimen  delta_t  measurement_mean  measurement_q75  measurement_max  lag_mean0        X        0          0.490533         0.490533         0.490533  0.0768401        X        1          0.472935         0.472935         0.472935  0.4735522        X        2          0.449622         0.449622         0.449622  0.5076643        X        3          0.469796         0.469796         0.469796  0.4357534        X        4          0.509748         0.509748         0.509748  0.472064

从上述对比中可以看出，通过将聚合操作分解到各个列上执行，并直接构建新的DataFrame，我们能够实现数量级的性能提升。这种方法避免了 agg 在处理复杂聚合时可能产生的额外开销。

2. 处理多层索引输出 (MultiIndex)

原始的 agg 方法在聚合多列并使用多个聚合函数时，默认会生成一个多层列索引（MultiIndex）。如果你的应用场景需要这种结构，也可以通过“懒惰式 groupby”方法来实现。只需在构建DataFrame时，将列名定义为元组即可。

groups = df.groupby(['specimen', 'delta_t'])df_result_multiindex = pd.DataFrame({    ('measurement','mean'): groups['measuremnt'].mean(),    ('measurement','q75'): groups['measuremnt'].quantile(.75),    ('measurement','max'): groups['measuremnt'].max(),    ('lag','mean'): groups['lag'].mean()}).reset_index()print(df_result_multiindex.head())

输出示例：

  specimen  delta_t measurement                      lag                               mean       q75       max    mean0        X        0     0.490533  0.490533  0.490533  0.0768401        X        1     0.472935  0.472935  0.472935  0.4735522        X        2     0.449622  0.449622  0.449622  0.5076643        X        3     0.469796  0.469796  0.469796  0.4357534        X        4     0.509748  0.509748  0.509748  0.472064

通过使用元组作为字典的键，Pandas在构建DataFrame时会自动识别并创建多层列索引，从而模拟 agg 的默认输出结构。

注意事项与最佳实践

选择合适的聚合方法：对于简单的单列或少量聚合，agg 方法通常足够方便且性能尚可。当聚合操作复杂（多列、多函数、自定义函数）且数据量较大时，优先考虑“懒惰式 groupby”策略。如果聚合函数是Pandas或NumPy的内置函数，它们通常是高度优化的。自定义Python函数（如本例中的 q75）可能会引入额外的性能开销，尤其是在 agg 内部。避免不必要的 reset_index()： 如果不需要将分组键作为普通列，可以省略 reset_index()，直接使用 groupby 结果的索引作为DataFrame的索引，这可以节省一步操作。数据类型优化： 确保DataFrame中的列使用最合适的数据类型。例如，整数列不应存储为浮点数，这可以减少内存占用并可能加速某些操作。内存管理： 对于极大数据集，即使是优化后的 groupby 也可能消耗大量内存。考虑使用Dask等分布式计算库，或分块处理数据。预计算： 如果某些中间结果可以预先计算或缓存，可以进一步提升整体性能。

总结

Pandas groupby 是数据处理的核心功能，但其性能并非一成不变。通过理解 agg 方法在复杂场景下可能带来的开销，并采纳“懒惰式 groupby”的优化策略，开发者可以显著提升大数据聚合的效率。这种方法不仅能够加速计算，还能提供更灵活的列名控制，从而更好地适应不同的数据分析需求。在实际项目中，根据具体的数据规模和聚合复杂度，选择最适合的 groupby 实现方式，是编写高效Pandas代码的关键。

以上就是Pandas groupby 性能优化：实现高效数据聚合的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1382596.html

python python函数内存占用大数据工具性能瓶颈聚合函数

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

优化XGBoost海量数据加载策略：兼顾内存效率与并发读取

上一篇 2025年12月15日 00:03:31

Python面向对象设计：构建可扩展的多层级数据结构

下一篇 2025年12月15日 00:03:43

好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
2000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
2000
好文分享

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
0000
好文分享

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
0000
好文分享

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
0000
好文分享

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
好文分享

应对性能瓶颈：前端工程师的重绘与回流解决方案

重绘和回流解密：前端工程师如何应对性能瓶颈引言：随着互联网的快速发展，前端工程师的角色越来越重要。他们需要处理用户界面的设计和开发，同时还要关注网站性能的优化。在前端性能优化中，重绘和回流是常见的性能瓶颈。本文将详细介绍重绘和回流的原理，并提供一些实用的代码示例，帮助前端工程师应对性能瓶颈。一、…

程序猿
2025年12月24日
2000
好文分享

响应式HTML5按钮适配不同屏幕方法【方法】

实现响应式HTML5按钮需五种方法：一、CSS媒体查询按max-width断点调整样式；二、用rem/vw等相对单位替代px；三、Flexbox控制容器与按钮伸缩；四、CSS变量配合requestAnimationFrame优化的JS动态适配；五、Tailwind等框架的响应式工具类。如果您希望H…

程序猿
2025年12月23日
0000
好文分享

html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

HTML5无法直接导出video标签内容，需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制；FFmpeg.wasm支持MP4等格式及精细编码控制；服务端方案适合高负载场景。如果您希望在网页…

程序猿
2025年12月23日
3000
好文分享

如何查看编写的html_查看自己编写的HTML文件效果【效果】

要查看HTML文件的浏览器渲染效果，需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。如果您编写了HTML代码，但无法直观看到其在浏览器中的实际渲染效果，则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

程序猿
2025年12月23日
4000
好文分享

node.js怎么运行html_node.js运行html步骤【指南】

答案是使用Node.js内置http模块、Express框架或第三方工具serve可快速搭建服务器预览HTML文件。首先通过http模块创建服务器并读取index.html返回响应；其次用Express初始化项目并配置静态文件服务；最后利用serve工具全局安装后一键启动服务器，三种方式均在浏览器访…

程序猿
2025年12月23日
3000
好文分享

html5游戏怎么修改_HT5改JS逻辑或资源文件调整游戏玩法效果【修改】

需直接编辑核心JavaScript代码或替换图片、音频等资源文件；先用浏览器开发者工具的Sources面板定位含game、main等关键词的.js文件，再搜索score++、if (health等逻辑片段进行修改。如果您下载了某个HTML5游戏的本地文件，希望调整其玩法逻辑或替换资源以改变视觉效果…

程序猿
2025年12月23日
0000
好文分享

html5怎么重叠图片_html5用position:absolute或z-index让图片重叠【重叠】

在HTML5中实现图片重叠需结合CSS定位与层叠控制：一、用position:absolute+top/left精确定位，父容器设position:relative；二、用z-index设定堆叠顺序（需已定位）；三、用transform:translate()实现无文档流干扰的偏移重叠；四、用CSS…

程序猿
2025年12月23日
2000
好文分享

html5怎么打包运行_HT5用Webpack或Gulp打包后浏览器打开运行【打包】

应通过 HTTP 服务运行打包后的 HTML5 页面，而非双击打开：一、Webpack 配 webpack-dev-server 启动本地服务；二、Gulp 配 BrowserSync 提供实时重载；三、用 Python/Node.js 轻量 HTTP 工具托管 dist 目录；四、仅当必须双击运行…

程序猿
2025年12月23日
0000
好文分享

html5文件运行不出来怎么回事_析html5文件运行失败原因【解析】

首先检查文件扩展名和编码格式，确保为.html且使用UTF-8编码；接着验证HTML5结构完整性，包含及正确闭合的标签；然后排查外部资源路径是否正确，利用开发者工具查看404错误；排除浏览器兼容性问题，优先在现代浏览器中测试并避免未广泛支持的API；检查JavaScript语法错误与执行顺序，确保脚…

程序猿
2025年12月23日
0000
好文分享

html5如何建立站点_HTML5站点建立步骤与网站搭建技巧【指南】

HTML5网站搭建需五步：一、建my-website目录及css/js/images子目录，含index.html；二、写标准HTML5骨架，含DOCTYPE、lang、meta、语义化标签；三、外链CSS与defer/async脚本；四、用http-server启本地服务；五、用email/num…

程序猿
2025年12月23日
0000
好文分享

html5怎么插入文档_HT5用object或iframe嵌入PDF/Word文档显示【插入】

可在HTML5中用iframe或object标签嵌入PDF，需设宽高及可访问路径；Word文档需借OneDrive等第三方服务代理渲染；须处理跨域限制并提供下载降级方案。如果您希望在HTML5页面中嵌入PDF或Word文档并直接显示，可以使用或标签实现。以下是几种可行的嵌入方法：一、使用ifra…

程序猿
2025年12月23日
2000
好文分享

html5怎么设置黑体_html5用CSS font-family设黑体或font-weight加粗【设置】

在HTML5中实现黑体及加粗需用CSS的font-family和font-weight：一、font-family按优先级列“SimHei”,“Microsoft YaHei”,“Heiti SC”,sans-serif；二、font-weight用700或bold；三、组合声明并注意继承；四、可用…

程序猿
2025年12月23日
0000
好文分享

html5怎么去除黑点_html5用list-style:none去除ul/ol列表黑点【去除】

可通过 CSS 的 list-style 属性隐藏列表标记：一、list-style: none 最常用；二、list-style-type: none 精准移除符号；三、重置 list-style 全部子属性应对样式干扰；四、display: inline-block 配合 list-style:…

程序猿
2025年12月23日
0000
好文分享

如何运行html代码_html代码运行方法【步骤】

HTML代码需保存为.html文件并用浏览器打开才能正确显示；若含AJAX或外部资源则需本地服务器；临时测试可用开发者工具；在线编辑器支持即时预览。如果您编写了一段HTML代码，但无法在浏览器中正确显示效果，则可能是由于文件未以正确的格式保存或未通过浏览器打开。以下是运行HTML代码的具体步骤： …

程序猿
2025年12月23日
0000