python中怎么用pandas进行分组聚合（groupby）？

程序猿 • 2025年12月14日 12:06:29 • 好文分享 • 阅读 0

Pandas的groupby通过“分、用、合”实现数据聚合，支持多列分组与复杂聚合，结合filter、sort_values和reset_index可高效处理结果，并可通过优化数据类型、使用Dask等提升大数据性能。

Pandas中的

groupby

操作，简单来说，就是将你的数据集根据一个或多个键（列）进行拆分，然后对每个独立的组应用一个函数（比如求和、平均值），最后将这些结果组合起来。它是我在数据分析工作中，处理聚合统计、探索数据模式时，几乎离不开的核心工具。理解并掌握它，能让你对数据有更深层次的洞察。

解决方案

groupby

的核心思想是“分、用、合”（Split-Apply-Combine）。当你需要对数据集中的某个类别或分组进行统计分析时，

groupby

就是你的首选。

首先，你需要一个DataFrame。我们创建一个简单的例子：

import pandas as pdimport numpy as npdata = {    '城市': ['北京', '上海', '北京', '广州', '上海', '北京'],    '商品': ['A', 'B', 'A', 'C', 'B', 'C'],    '销售额': [100, 150, 200, 50, 120, 80],    '利润': [20, 30, 40, 10, 25, 15]}df = pd.DataFrame(data)print("原始数据：")print(df)

1. 基本分组聚合

立即学习“Python免费学习笔记（深入）”；

如果你想知道每个城市的总销售额，你可以这样做：

# 按城市分组，计算销售额总和city_sales = df.groupby('城市')['销售额'].sum()print("n按城市分组的总销售额：")print(city_sales)

这里，

df.groupby('城市')

完成了“分”的步骤，它根据“城市”列的值将DataFrame拆分成了“北京”、“上海”、“广州”三个组。

['销售额'].sum()

则是在每个组上“应用”了求和操作，最后Pandas自动将这些结果“组合”成了一个新的Series。

你也可以对多个列进行聚合，或者使用不同的聚合函数：

# 按城市分组，计算销售额的平均值和利润的最大值city_stats = df.groupby('城市').agg({    '销售额': 'mean',    '利润': 'max'})print("n按城市分组的平均销售额和最大利润：")print(city_stats)

常用的聚合函数包括：

sum()

(求和),

mean()

(平均值),

median()

(中位数),

min()

(最小值),

max()

(最大值),

count()

(非NaN值的数量),

size()

(组的大小，包含NaN),

std()

(标准差),

var()

(方差)等。你也可以直接传入字符串形式的函数名。

2. 多列分组

如果你想更细致地分析，比如想知道每个城市里，每种商品的销售额总和，那就需要多列分组：

# 按城市和商品分组，计算销售额总和city_product_sales = df.groupby(['城市', '商品'])['销售额'].sum()print("n按城市和商品分组的总销售额：")print(city_product_sales)

这样会生成一个MultiIndex的Series，非常适合进行多维度的分析。

Pandas Groupby如何实现多列分组与复杂聚合操作？

在实际的数据分析场景中，我们很少只对一个列进行简单的聚合。多列分组是常态，而复杂聚合则意味着我们可能需要对不同的列应用不同的聚合逻辑，甚至自定义聚合函数。

当我们用

df.groupby(['列1', '列2'])

进行多列分组时，Pandas会根据这些列的唯一组合来创建独立的组。这就像是先按“城市”分，再在每个城市内部按“商品”分，形成一个层级结构。结果通常是一个MultiIndex（多级索引）的Series或DataFrame，这在视觉上可能需要一点时间来适应，但它的信息量非常大。

对于复杂聚合，

agg()

方法提供了极大的灵活性。你可以传入一个字典，其中键是你要聚合的列名，值可以是单个聚合函数字符串、函数对象，或者一个包含多个函数字符串/函数对象的列表。

# 示例：对不同列应用不同聚合，并使用多个聚合函数complex_agg = df.groupby('城市').agg(    总销售额=('销售额', 'sum'), # 命名聚合，结果列名为“总销售额”    平均利润=('利润', 'mean'), # 结果列名为“平均利润”    商品种类=('商品', lambda x: x.nunique()) # 使用lambda表达式自定义聚合：计算商品种类数)print("n复杂聚合操作：")print(complex_agg)

这里我用了Python的

lambda

表达式来定义一个匿名函数

lambda x: x.nunique()

，它计算了每个组中“商品”列的唯一值数量，这比写一个完整的函数更简洁。这种自定义聚合的能力，让

groupby

变得异常强大。

有时，你可能需要对整个组应用一个更复杂的逻辑，而不仅仅是简单的聚合函数。这时，

apply()

方法就派上用场了。

apply()

会将整个DataFrame的子集（每个组）传递给你的函数。

# 示例：使用apply()查找每个城市销售额最高的商品def top_product(group):    return group.loc[group['销售额'].idxmax()]top_selling_per_city = df.groupby('城市').apply(top_product)print("n每个城市销售额最高的商品信息：")print(top_selling_per_city)

apply()

比

agg()

更灵活，但通常也更慢，因为它无法像

agg()

那样利用Pandas底层的优化。所以，在能用

agg()

解决问题时，优先选择

agg()

。只有当你的逻辑真的需要访问整个组的结构时，才考虑

apply()

。

处理Groupby结果时，如何高效地筛选、排序与重置索引？

当我们完成分组聚合后，得到的结果往往需要进一步的整理和分析。筛选、排序和重置索引是处理

groupby

结果时最常见的后续操作。

1. 筛选分组后的数据 (

filter()

)

有时候，我们只对满足特定条件的分组结果感兴趣。比如，我们只想看到总销售额超过某个阈值的城市。这时候，

filter()

方法就非常有用。它允许你根据每个组的聚合结果来决定是否保留这个组。

# 筛选出总销售额大于250的城市filtered_cities = df.groupby('城市').filter(lambda x: x['销售额'].sum() > 250)print("n筛选出总销售额大于250的原始数据行：")print(filtered_cities)

需要注意的是，

filter()

返回的是原始DataFrame中满足条件的行，而不是聚合后的结果。如果你想筛选聚合后的结果，你需要先进行聚合，然后对聚合后的DataFrame进行筛选。

# 先聚合，再筛选聚合结果agg_result = df.groupby('城市')['销售额'].sum()high_sales_cities_agg = agg_result[agg_result > 250]print("n筛选出总销售额大于250的城市及其总销售额（聚合结果）：")print(high_sales_cities_agg)

2. 排序分组结果 (

sort_values()

)

聚合后的数据通常是按分组键的顺序排列的，但我们可能需要根据聚合值进行排序，以便快速识别最大值或最小值。

# 按城市分组并计算总销售额，然后按销售额降序排列sorted_city_sales = df.groupby('城市')['销售额'].sum().sort_values(ascending=False)print("n按总销售额降序排列的城市：")print(sorted_city_sales)

如果你的聚合结果是一个DataFrame（比如你使用了多个聚合函数），你可以指定按哪个列进行排序：

# 按城市分组，计算销售额和利润的平均值，然后按平均销售额降序排列avg_stats = df.groupby('城市').agg({'销售额': 'mean', '利润': 'mean'})sorted_avg_stats = avg_stats.sort_values(by='销售额', ascending=False)print("n按平均销售额降序排列的城市统计：")print(sorted_avg_stats)

3. 重置索引 (

reset_index()

)

groupby

操作默认会把分组键变成结果DataFrame的索引（或MultiIndex）。虽然这在很多情况下很方便，但有时我们更希望这些分组键作为普通的列存在，方便后续的筛选、合并或其他操作。

reset_index()

就是用来解决这个问题的。

# 按城市和商品分组计算总销售额，并将分组键转为普通列reset_index_example = df.groupby(['城市', '商品'])['销售额'].sum().reset_index()print("n重置索引后的分组聚合结果：")print(reset_index_example)

你也可以在

groupby

时就避免生成索引，通过设置

as_index=False

。

# 在groupby时就避免生成索引no_index_groupby = df.groupby(['城市', '商品'], as_index=False)['销售额'].sum()print("ngroupby时设置as_index=False的结果：")print(no_index_groupby)

在我看来，

reset_index()

是一个非常实用的操作，尤其是在需要将聚合结果与其他DataFrame进行合并时，或者当你希望将分组键作为普通列进行进一步的筛选或可视化时。它能让你的数据结构更扁平，更易于处理。

Groupby在大型数据集上可能面临的性能瓶颈与优化策略有哪些？

虽然

groupby

功能强大，但在处理非常大的数据集时，我确实遇到过性能瓶颈。了解这些瓶颈并掌握一些优化策略，对于高效地进行数据分析至关重要。

1. 内存消耗

groupby

在内部会创建每个组的视图或副本，尤其是在使用

apply()

时，如果组的数量非常多，或者每个组的数据量很大，这可能会导致大量的内存消耗。我的经验是，当数据集大到一定程度，内存溢出就成了家常便饭。

优化策略：

选择合适的聚合方法： 优先使用内置的聚合函数（如

sum

mean

count

），它们通常是在C语言层面实现的，效率很高。如果非要用自定义函数，尽量用

agg()

而不是

apply()

，因为

agg()

可以更好地利用Pandas的优化。

提前过滤和选择列： 在进行

groupby

之前，只保留你需要的列，并过滤掉不相关的行。减少数据量是提高性能最直接的方法。

使用

category

dtype： 如果你的分组键（比如“城市”、“商品”）是字符串类型，并且唯一值的数量相对较少，将其转换为

category

dtype可以显著减少内存占用并加速操作。Pandas在处理分类数据时效率更高。

df['城市'] = df['城市'].astype('category')df['商品'] = df['商品'].astype('category')# 再次进行groupby操作，可能会更快

分块处理（Chunking）： 对于超大型数据集，如果一次性加载会爆内存，可以考虑将数据分块加载，对每个块进行

groupby

，然后将各块的结果合并。这通常需要一些手动编码，但能有效解决内存问题。

apply()

的性能问题

前面提过，

apply()

虽然灵活，但效率通常不如内置聚合函数和

agg()

。因为它会在Python循环中迭代每个组，并且每次迭代都可能涉及Python和C代码之间的上下文切换。

优化策略：

尽量用

agg()

或

transform()

替代

apply()

：

agg()

用于返回每个组的单个聚合值。

transform()

用于返回一个与原始DataFrame形状相同的Series，其中每个值都是其所在组的聚合结果。这在需要将组级统计量“广播”回原始数据时非常有用，比如标准化某个组内的数据。

# 示例：使用transform()计算每个城市的销售额占城市总销售额的比例df['城市销售额占比'] = df.groupby('城市')['销售额'].transform(lambda x: x / x.sum())print("n使用transform()计算城市销售额占比：")print(df)

transform

的效率通常远高于

apply

，因为它能对组内的所有元素同时执行操作，而不需要显式的Python循环。

3. 数据类型不一致

在某些情况下，如果分组键的数据类型不一致（比如混合了字符串和数字），Pandas可能无法有效地优化操作，导致性能下降。确保分组键的数据类型统一且合适，能避免一些不必要的性能开销。

4. 外部库的利用

对于真正的大数据量（GB级别甚至TB级别），Pandas可能就力不从心了。这时，可以考虑使用专门为大数据设计的库：

Dask： Dask提供了与Pandas类似的API，但能够处理超出内存的数据集，并利用多核CPU或分布式集群进行计算。它的

dask.dataframe

模块可以无缝替代Pandas DataFrame。Polars： Polars是一个用Rust编写的DataFrame库，以其卓越的性能和内存效率而闻名，尤其是在处理大型数据集时。它的

groupby

操作通常比Pandas快得多。

在我实际工作中，面对大型数据集，我往往会先尝试优化Pandas本身的用法（如

category

dtype、

transform

），如果还是不行，Dask通常是我的下一个选择，它能让我用熟悉的Pandas语法处理更大的数据。这是一个迭代优化的过程，没有一劳永逸的方案，关键在于理解数据的规模和操作的特性。

以上就是python中怎么用pandas进行分组聚合（groupby）？的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1372175.html

app c语言 go pandas python red 内存占用分组聚合大数据工具排列编码聚合函数

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

python中怎么判断一个变量的类型_Python变量类型判断技巧

上一篇 2025年12月14日 12:06:19

Selenium 密码字段输入失败问题排查与解决

下一篇 2025年12月14日 12:06:31

好文分享

如何利用BFC和inline-block解决兄弟元素间margin塌陷问题？

BFC清除兄弟元素间margin塌陷原理 margin塌陷问题当相邻的块级元素垂直排列，它们的margin可能会塌陷并重叠，称为margin塌陷。 BFC清除margin塌陷清除margin塌陷的一种常见方法是将下方元素包裹在一个新的块级格式化上下文（BFC）中，因为BFC之间不会相互影响。 d…

程序猿
2025年12月24日
5000
好文分享

如何优化CSS Grid布局中子元素排列和宽度问题？

css grid布局中的优化问题在使用css grid布局时可能会遇到以下问题：问题1：无法控制box1中li的布局 box1设置了grid-template-columns: repeat(auto-fill, 20%)，这意味着容器将自动填充尽可能多的20%宽度的列。当li数量大于5时，它们…

程序猿
2025年12月24日
8000
为什么设置 `overflow: hidden` 会导致 `inline-block` 元素错位？

overflow 导致 inline-block 元素错位解析当多个 inline-block 元素并列排列时，可能会出现错位显示的问题。这通常是由于其中一个元素设置了 overflow 属性引起的。问题现象在不设置 overflow 属性时，元素按预期显示在同一水平线上：不设置 overf…

程序猿
2025年12月24日 • 好文分享
4000
好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
2000
好文分享

面板翻页显示16张图片和信息，如何实现模块靠左显示并按行排列？

如何在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示？问题：在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果。已知信息：图片和信息使用json数据定义。使用paginationbyjs函数进行分页。使…

程序猿
2025年12月24日
0000
好文分享

如何在面板上翻页显示16个图片和信息，并实现模块靠左显示、内容按行排列？

如何设置div内的模块靠左显示，模块内容按行显示？问题：在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果。答案：要将div内的模块靠左显示，并按行排列模块内容，可以使用以下方式：给div容器添加flexbox属性： #list {…

程序猿
2025年12月24日
0000
好文分享

如何实现 div 内模块靠左显示并按行排列，且翻页显示图片和信息？

如何设置div内的模块靠左显示，模块内容按行显示？在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果中间部分里面的图片，文字显示在图片下方第二页图片靠左显示以上就是如何实现 div 内模块靠左显示并按行排列，且翻页显示图片和信息？的…

程序猿
2025年12月24日
0000
好文分享

inline-block元素错位了，是为什么？

inline-block元素错位背后的原因 inline-block元素是一种特殊类型的块级元素，它可以与其他元素行内排列。但是，在某些情况下，inline-block元素可能会出现错位显示的问题。错位的原因当inline-block元素设置了overflow:hidden属性时，它会影响元素的…

程序猿
2025年12月24日
0000
好文分享

如何让 div 内的模块靠左显示，模块内容按行排列，并在面板上实现翻页展示？

如何设置div内的模块靠左显示，模块内容按行显示？在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果 css 代码： #List { display: flex; flex-wrap: wrap;}#List > div { text…

程序猿
2025年12月24日
0000
好文分享

如何使用 CSS Grid 布局实现固定头部和动态渲染的子元素布局？

如何实现固定布局和遍历 div？如图所示，第一个 div 固定在页面顶部，后四个 div 通过 for 循环动态渲染在下方。询问如何实现此布局，以及是否有更好的解决方案。解决方案： grid 布局立即学习“前端免费学习笔记（深入）”； grid 布局非常适合解决此问题： html 代码：固定…

程序猿
2025年12月24日
0000
好文分享

Flex 布局中，padding-right 为何无效？

在 flex 布局中，padding-right 为何无效？在使用 flex 布局时，当父元素设置了 padding-right，而内部元素纵向排列且高度固定，并允许横向滑动时，padding-right 可能不起作用。解决此问题的一个方法是修改父元素的 width 属性。将 width: 10…

程序猿
2025年12月24日
2000
好文分享

如何用 CSS 实现固定布局和遍历生成的 DIV，使其第一个固定不动，剩余的以 1234 顺序排列？

如何实现固定布局和遍历div 如图所示，大的div固定在第一个位置，而标有1234的div则是通过for循环生成的。能否实现这样的布局，或者有更好的解决方案？解决方案：要实现这样的布局，推荐使用grid布局，它可以完美地解决这个问题。立即学习“前端免费学习笔记（深入）”；布局如下：第一个d…

程序猿
2025年12月24日
0000
如何用CSS Grid布局实现首个div固定位置，其他div自动排列？

css布使用固定布局和遍历div 如图所示，有一个大的div固定在第一个位置，里面有若干个通过for循环生成的div，编号为1、2、3、4。解决方案使用css的grid布局可以完美解决这个问题。立即学习“前端免费学习笔记（深入）”； html结构固定不动其他1 其他2 其他3 其他4 其他…

程序猿
好文分享 2025年12月24日
0000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
2000
好文分享

如何使用 Grid 布局解决固定布局和遍历 Div 问题？

解决固定布局和遍历 div 问题在开发中，我们有时需要创建固定布局中循环生成的元素。使用传统的定位方法可能比较复杂，这里为大家推荐一个完美的解决方案：grid 布局。方案：使用 grid 布局，设置容器为一行两列布局，第一个元素占据两行一列，其他元素自动排列。为容器设置边框和间距样式。为第一个…

程序猿
2025年12月24日
0000
垂直排版如何解决纵向展示文字溢出问题？

纵向展示文字溢出的省略号处理在纵向排列的文字中，传统的水平溢出省略方案变得不适用。针对这一问题，css 提供了一种优雅的解决方案：垂直排版。垂直排版方案通过 css 的 writing-mode 属性，可以将原先水平排列的文字垂直排列。具体代码如下： p { writing-mode: ver…

程序猿
好文分享 2025年12月24日
0000
好文分享

如何实现与设计稿一致的前端进度条？

前端进度条的实现方案及优化方法要实现一个如设计稿所示的进度条，以下是一些思路：自定义原生进度条优点：可高度定制，可以满足各种特殊需求。缺点：需要自己编写所有代码，包括圆环效果和鼠标移上提示信息。立即学习“前端免费学习笔记（深入）”；基于 Element-UI 进度条优点：使用现成组件，可…

程序猿
2025年12月24日
0000
好文分享

掌握 Flexbox：我关于构建响应式布局的学习笔记

好吧，喝杯咖啡（或者茶，我们不评判），让我们深入flexbox的世界！如果您曾因试图让网页在任何设备上看起来都不错而感到沮丧 – 别担心，您并不孤单。 flexbox 来拯救世界，相信我，它并不像听起来那么可怕！ flexbox 到底是什么？ flexbox 就像您的个人布局助手，可以…

程序猿
2025年12月24日
0000
好文分享

如何使用 CSS 实现横向排列带横线和圆圈的元素？

一个 CSS 样式的实现如何使用 CSS 实现上图中红框所示的效果？其中，横向排列、内容居中，并且有横线和圆圈。解答：要实现该效果，需要使用多个 CSS 属性：立即学习“前端免费学习笔记（深入）”；横向排列和内容居中：使用元素并将其 text-align 属性设置为 “ce…

程序猿
2025年12月24日
0000
如何用 CSS 实现图中所示的点线效果？

如何用 CSS 实现图中的点线效果？要实现图中所示的效果，可以按照以下步骤进行：放置元素首先，将元素水平排列并设置文本居中。这可以使用 text-align:center 属性来实现。创建横线最简单的创建横线的方法是使用上边框，但要注意第一个和最后一个元素的横线会缺一半。立即学习“前端免…

程序猿
好文分享 2025年12月24日
1000