Pandas DataFrame 多列组合统计数据计算与分组展示

程序猿 • 2025年11月10日 23:03:38 • 后端开发 • 阅读 0

本文旨在帮助读者掌握如何使用 Pandas 库对 DataFrame 中多个列的组合进行分组，并计算每个组合的统计数据，包括中位数、平均值、计数、90% 分位数和 10% 分位数。通过 groupby() 和 agg() 函数的灵活运用，以及 MultiIndex 的构建，可以高效地完成数据分析任务，并将结果以清晰的方式呈现。

DataFrame 分组与统计聚合

在数据分析中，经常需要对数据进行分组，然后针对每个组计算统计指标。Pandas 提供了强大的 groupby() 方法来实现这一功能。结合 agg() 方法，可以轻松地计算各种统计量，例如均值、中位数、计数和分位数。

假设我们有以下 DataFrame：

import pandas as pdimport numpy as npdata = {'Var1': [True, False, True, False, True, False, True, False, True],        'Var2': [1, 2, 3, 1, 2, 3, 1, 2, 3],        'Var3': ['A', 'B', 'C', 'A', 'B', 'C', 'A', 'B', 'C'],        'Value': [12, 93, 28, 23, 94, 12, 85, 23, 2]}df = pd.DataFrame(data)print(df)

输出：

   Var1  Var2 Var3  Value0  True     1    A     121 False     2    B     932  True     3    C     283 False     1    A     234  True     2    B     945 False     3    C     126  True     1    A     857 False     2    B     238  True     3    C      2

我们的目标是根据 Var1、Var2 和 Var3 的组合对数据进行分组，并计算每个组的 Value 列的中位数、平均值、计数、90% 分位数和 10% 分位数。

实现步骤

分组与聚合

使用 groupby() 方法对 DataFrame 进行分组，并使用 agg() 方法计算统计量。

df = df.groupby(["Var1", "Var2", "Var3"]).agg(    Med=("Value", "median"),    Mean=("Value", "mean"),    Count=("Value", "count"),    q90=("Value", lambda x: x.quantile(q=0.9)),    q10=("Value", lambda x: x.quantile(q=0.1)),)

这里，agg() 方法接受一个字典，字典的键是新列的名称，值是一个元组，元组的第一个元素是要进行统计的列名，第二个元素是统计函数。对于分位数，我们使用 lambda 函数来调用 quantile() 方法。

美图设计室

5分钟在线高效完成平面设计，AI帮你做设计

29 查看详情

重建索引 (Reindexing)

为了确保所有可能的组合都存在于结果中，即使某些组合在原始数据中没有出现，我们需要重建索引。

df = df.reindex(    pd.MultiIndex.from_product(        [[True, False], [1, 2, 3], ["A", "B", "C"]], names=["Var1", "Var2", "Var3"]    ))

pd.MultiIndex.from_product() 创建一个包含所有可能组合的多重索引。reindex() 方法使用这个多重索引来重新索引 DataFrame。如果某个组合在原始数据中不存在，则其对应的统计量将为 NaN。

分组打印结果

最后，我们可以遍历分组后的 DataFrame，并打印每个组的结果。

for _, g in df.groupby(level=[0, 1, 2]):    print(g)    print("-" * 80)

groupby(level=[0, 1, 2]) 按照多重索引的级别进行分组。

完整代码示例

import pandas as pdimport numpy as npdata = {'Var1': [True, False, True, False, True, False, True, False, True],        'Var2': [1, 2, 3, 1, 2, 3, 1, 2, 3],        'Var3': ['A', 'B', 'C', 'A', 'B', 'C', 'A', 'B', 'C'],        'Value': [12, 93, 28, 23, 94, 12, 85, 23, 2]}df = pd.DataFrame(data)df = df.groupby(["Var1", "Var2", "Var3"]).agg(    Med=("Value", "median"),    Mean=("Value", "mean"),    Count=("Value", "count"),    q90=("Value", lambda x: x.quantile(q=0.9)),    q10=("Value", lambda x: x.quantile(q=0.1)),)df = df.reindex(    pd.MultiIndex.from_product(        [[True, False], [1, 2, 3], ["A", "B", "C"]], names=["Var1", "Var2", "Var3"]    ))for _, g in df.groupby(level=[0, 1, 2]):    print(g)    print("-" * 80)

注意事项

确保在计算分位数时，数据类型是数值型。如果数据类型是字符串，需要先转换为数值型。如果某些组的数据量很小，计算出的分位数可能没有意义。reindex() 方法可以确保所有可能的组合都存在于结果中，但如果组合的数量非常大，可能会导致内存占用过高。

总结

本文介绍了如何使用 Pandas 库对 DataFrame 中多个列的组合进行分组，并计算每个组合的统计数据。通过 groupby() 和 agg() 函数的灵活运用，以及 MultiIndex 的构建，可以高效地完成数据分析任务。这种方法在处理需要对数据进行多维度分析的场景中非常有用。

以上就是Pandas DataFrame 多列组合统计数据计算与分组展示的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/606740.html

内存占用

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

323.8K 文章

0 评论

1 粉丝

这个人很懒，什么都没有留下～

Python 多重继承模型中的 Typing 技巧

上一篇 2025年11月10日 23:02:25

掌握 pd.get_dummies：确保独热编码输出为0和1的实用指南

下一篇 2025年11月10日 23:04:59

好文分享

掌握 pd.get_dummies：确保独热编码输出为0和1的实用指南

本文旨在解决 pandas.get_dummies 函数在执行独热编码时，默认返回布尔值（True/False）而非期望的二进制整数（0/1）的问题。我们将深入探讨 get_dummies 的默认行为，并提供一种简洁高效的方法，通过指定 dtype 参数来确保独热编码结果以0和1的形式呈现，从而满足…

程序猿
2025年12月14日
0000
好文分享

Pandas DataFrame 多列组合统计数据计算与分组展示

本文旨在帮助读者掌握如何使用 Pandas 库对 DataFrame 中多个列的组合进行分组，并计算每个组合的统计数据，包括中位数、平均值、计数、90% 分位数和 10% 分位数。通过 groupby() 和 agg() 函数的灵活运用，以及 MultiIndex 的构建，可以高效地完成数据分析任务…

程序猿
2025年12月14日
0000
好文分享

使用 lxml 解析 XML 时提取文本内容

本文档旨在帮助开发者在使用 lxml 库解析 XML 文件时，正确提取包含子元素的父节点的文本内容。我们将通过示例代码和详细解释，展示如何利用 tail 属性以及迭代方法，从复杂的 XML 结构中获取目标文本。在使用 lxml 解析 XML 时，直接访问元素的 text 属性可能无法获取到期望的全…

程序猿
2025年12月14日
0000
好文分享

Pandas高效处理大型CSV文件：告别iterrows()，拥抱向量化操作

处理大型CSV文件时，Python Pandas的性能优化至关重要。本文将指导您避免使用低效的iterrows()和apply()方法，转而采用Pandas内置的向量化操作，以显著提升数据处理速度。对于内存受限的超大型文件，还将介绍如何利用chunksize参数分块读取和处理数据，确保流畅高效的工作…

程序猿
2025年12月14日
0000
好文分享

查找并保留DataFrame之间不成对的行

本文介绍如何高效地找出两个DataFrame中不成对的行，即使存在重复项。我们将使用MultiIndex和symmetric_difference方法，避免传统循环或合并操作，从而显著提高处理速度，尤其是在处理大型数据集时。通过具体示例和代码，帮助读者理解并掌握这种高效的数据处理技巧。在数据分析和…

程序猿
2025年12月14日
0000
好文分享

PyTorch中高效查找张量B元素在张量A中的所有索引位置

本教程旨在解决PyTorch中查找张量B元素在张量A中所有出现索引的挑战，尤其是在面对大规模张量时，传统广播操作可能导致内存溢出。文章提供了两种优化策略：一种是结合部分广播与Python循环的混合方案，另一种是纯Python循环迭代张量B的方案，旨在平衡内存效率与计算性能，并详细阐述了它们的实现方式…

程序猿
2025年12月14日
0000
好文分享

Numpy数组与Python列表：意外的存储大小差异及其优化策略

本文深入探讨了Numpy数组在特定场景下存储空间大于等效Python列表的现象。通过分析Numpy不进行自动压缩的特性以及Python Pickle在序列化时对对象引用的优化机制，揭示了导致这种差异的深层原因。教程将提供使用numpy.savez_compressed等方法来有效缩小Numpy数组文…

程序猿
2025年12月14日
0000
好文分享

PyTorch中查找张量B元素在张量A中所有索引位置的内存优化方案

本文探讨了PyTorch中高效查找张量B元素在张量A中所有索引位置的策略，尤其针对大规模张量避免广播内存限制。提供了结合部分广播与Python循环的混合方案，以及纯Python循环迭代方案，旨在优化内存并生成结构化索引。文章将指导开发者根据场景选择最佳方法。引言：大规模张量索引查找的挑战在pyt…

程序猿
2025年12月14日
0000
好文分享

高效生成稀疏邻接矩阵的COO格式数据

本文旨在教授如何高效地在Python中生成用于稀疏邻接矩阵（特别是COO格式）的行（row）和列（col）索引，以确保矩阵对角线元素为零（即无自环）。我们将探讨使用NumPy生成所有非对角线索引的方法，以及如何从已有的COO格式数据构建矩阵，并最终将其应用于Scipy的稀疏矩阵构建。在图论和网络分…

程序猿
2025年12月14日
0000
好文分享

Python fileinput模块：高效处理大文件行删除的教程

本教程旨在解决Python中处理超大文件时，高效删除特定行的挑战。针对内存或硬盘资源受限的环境，传统方法可能效率低下甚至不可行。我们将详细介绍如何利用Python内置的fileinput模块，通过其原地修改（inplace=True）功能，以流式处理方式实现特定行的删除，从而显著减少内存占用并优化I…

程序猿
2025年12月14日
0000
好文分享

Python高效移除大型文件中特定行的教程

本教程旨在解决在Python中高效处理大型文本文件时，如何移除特定行而不耗尽系统资源的问题。通过介绍Python标准库中的fileinput模块，特别是其inplace=True模式，我们将学习如何在不将整个文件加载到内存的情况下，实现对文件内容的就地修改，从而优化处理速度和资源利用率，特别适用于磁…

程序猿
2025年12月14日
0000
好文分享

Python解释器有哪些种类

CPython是官方标准实现，广泛使用但受GIL限制；2. PyPy通过JIT提升性能，适合长期运行程序；3. Jython支持Java集成但仅限Python 2.7；4. IronPython用于.NET平台，支持C#交互；5. MicroPython专为嵌入式设备优化，适用于IoT开发。选择取决…

程序猿
2025年12月14日
0000
好文分享

Python 文件读取：f.read() 与 for line in f 的选择

本文旨在帮助开发者理解 Python 中读取文件的两种常用方法：f.read() 和 for line in f 循环。我们将深入探讨这两种方法的差异、适用场景以及性能考量，并通过示例分析，帮助你根据实际需求选择最合适的读取方式，从而提高代码效率和资源利用率。 Python 提供了多种读取文件的方法…

程序猿
2025年12月14日
0000
好文分享

何时使用 f.read()，何时使用 for line in f 读取文件？

在Python中，读取文件是常见的操作。f.read() 和 for line in f 都是读取文件内容的常用方法，但它们的工作方式和适用场景有所不同。理解它们之间的差异，可以帮助我们编写更高效、更健壮的代码。 f.read()：一次性读取整个文件 f.read() 函数会将整个文件的内容读取到一…

程序猿
2025年12月14日
0000
好文分享

何时使用 f.read()，何时使用 for line in f 迭代文件对象？

在Python中，处理文件读取时，我们经常会遇到两种主要方式：f.read() 方法和使用 for line in f 进行迭代。虽然它们都能读取文件内容，但其工作方式和适用场景却大相径庭。理解它们之间的差异对于编写高效且节省内存的代码至关重要。 f.read()：一次性读取整个文件 f.read(…

程序猿
2025年12月14日
0000
好文分享

优化Python中稀疏向量对欧氏距离计算的性能

本文探讨了在Python中高效计算两组向量间稀疏欧氏距离的策略。针对传统方法中计算大量不必要距离的性能瓶颈，我们提出并实现了一种结合Numba加速和SciPy稀疏矩阵（CSR格式）的解决方案。该方法通过显式循环和条件判断，仅计算所需距离，并直接构建稀疏矩阵，显著提升了计算速度和内存效率，特别适用于大…

程序猿
2025年12月14日
0000
好文分享

高效计算稀疏交叉差分：Numba与CSR矩阵的联合优化

本文探讨了在Python中高效计算两组向量间稀疏交叉差分距离的问题。针对传统方法中计算大量不必要距离的性能瓶颈，文章提出并详细阐述了一种结合Numba即时编译和SciPy稀S CSR矩阵的优化方案。该方案通过在Numba加速的循环中仅计算所需的距离，并直接构建稀疏矩阵，显著提升了大规模稀疏场景下的计…

程序猿
2025年12月14日
0000
好文分享

使用 Numba 和 CSR 矩阵高效计算稀疏交叉距离

本文探讨了在需要计算两组向量间稀疏的成对距离时，如何避免不必要的计算。通过结合 Numba 的即时编译能力和 SciPy 的压缩稀疏行 (CSR) 矩阵，我们构建了一个高效的解决方案。该方法通过有条件地计算所需距离并以稀疏格式存储结果，显著提升了大规模数据集的处理速度和内存效率，相比传统全矩阵计算方…

程序猿
2025年12月14日
0000
好文分享

高效计算Python中的稀疏成对距离

本文旨在解决在Python中高效计算两组向量之间稀疏成对距离的问题。针对传统NumPy方法在处理大量向量时因计算冗余而导致的性能瓶颈，本文提出了一种结合Numba即时编译和SciPy稀疏矩阵（特别是CSR格式）的优化方案。通过在Numba加速的循环中仅计算所需的距离并构建稀扑矩阵，该方法显著提升了计…

程序猿
2025年12月14日
0000
好文分享

python循环引用是什么意思？

Python通过引用计数和垃圾回收器处理循环引用，gc模块可检测并清理不可达对象，del操作后仍存在的相互引用对象会被自动回收，但可能延迟释放且影响析构函数调用。 Python循环引用指的是两个或多个对象相互持有对方的引用，导致它们的引用计数无法降为零，即使这些对象已经不再被程序使用，也无法被垃圾回…

程序猿
2025年12月14日
0000