Pandas DataFrame 中使用聚合函数计算百分比的实用指南

pandas dataframe 中使用聚合函数计算百分比的实用指南

本文旨在指导读者如何高效地在 Pandas DataFrame 中使用聚合函数,特别是计算分组后的百分比。我们将通过一个实际案例,演示如何按设备分组,并计算带宽使用率,避免使用低效的 apply 方法,提供更简洁、高效的解决方案。

问题描述

假设我们有一个 DataFrame,记录了不同设备的网络流量数据,包括输入流量 (In)、输出流量 (Out)、输入带宽 (Bw_in) 和输出带宽 (Bw_out)。我们的目标是计算每个设备的输入带宽使用率 (%InUsage) 和输出带宽使用率 (%OutUsage)。计算公式如下:

%InUsage = (设备所有接口的 Bw_in 总和) / (设备所有接口的 In 总和)%OutUsage = (设备所有接口的 Bw_out 总和) / (设备所有接口的 Out 总和)

解决方案

避免使用 apply 函数,可以显著提高代码的执行效率,尤其是在处理大型数据集时。以下是一种更高效的方法,它利用 Pandas 的 groupby 和 transform 函数来实现:

import pandas as pd# 示例 DataFramedata = {'Device': ['Usa123', 'Usa123', 'Emea01', 'Emea01'],        'int': ['Eth1', 'Eth0', 'Wan1', 'Eth3'],        'In': [1000, 10000, 1000, 2000],        'Out': [500, 700, 500, 1000],        'Bw_in': [100, 200, 150, 200],        'Bw_out': [75, 80, 90, 70]}df = pd.DataFrame(data)# 按 'Device' 分组g = df.groupby("Device")# 计算 %InUsage 和 %OutUsagedf[["%InUsage", "%OutUsage"]] = (    g[["Bw_in", "Bw_out"]].transform("sum")    / g[["In", "Out"]].transform("sum").to_numpy())print(df)

代码解释:

df.groupby(“Device”): 这一步将 DataFrame 按照 “Device” 列进行分组,创建了一个 DataFrameGroupBy 对象。

g[[“Bw_in”, “Bw_out”]].transform(“sum”): 对分组后的数据,分别对 “Bw_in” 和 “Bw_out” 列应用 transform(“sum”) 函数。transform 函数会将每个分组的求和结果广播回原始 DataFrame 的对应行。

g[[“In”, “Out”]].transform(“sum”).to_numpy(): 类似地,对 “In” 和 “Out” 列应用 transform(“sum”)。.to_numpy() 将结果转换为 NumPy 数组,以便进行后续的除法运算。

df[[“%InUsage”, “%OutUsage”]] = …: 将计算得到的百分比值赋值给 DataFrame 的新列 “%InUsage” 和 “%OutUsage”。

输出结果:

   Device   int     In   Out  Bw_in  Bw_out  %InUsage  %OutUsage0  Usa123  Eth1   1000   500    100      75  0.027273   0.1291671  Usa123  Eth0  10000   700    200      80  0.027273   0.1291672  Emea01  Wan1   1000   500    150      90  0.116667   0.1066673  Emea01  Eth3   2000  1000    200      70  0.116667   0.106667

优势

效率: 使用 groupby 和 transform 比 apply 更高效,尤其是在处理大型数据集时。简洁: 代码更简洁易懂,易于维护。向量化操作: 利用 Pandas 的向量化操作,避免了显式循环,提高了性能。

注意事项

确保分组列(本例中为 “Device”)的数据类型一致。在进行除法运算时,注意处理分母为零的情况,避免出现 ZeroDivisionError。可以添加一个小的 epsilon 值来避免这种情况。

总结

本文介绍了一种在 Pandas DataFrame 中使用聚合函数计算分组百分比的高效方法。通过避免使用 apply 函数,并利用 groupby 和 transform 函数,我们可以编写出更简洁、高效的代码,从而提高数据处理的效率。掌握这些技巧对于数据分析和处理至关重要。

以上就是Pandas DataFrame 中使用聚合函数计算百分比的实用指南的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1370152.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 10:17:20
下一篇 2025年12月14日 10:17:32

相关推荐

  • 使用 FastAPI 上传图片并应用于 YOLOv8 模型

    第一段引用上面的摘要: 本文档旨在指导开发者如何使用 FastAPI 框架构建一个 REST API 接口,该接口能够接收上传的图片,并将其传递给 YOLOv8 模型进行处理。我们将详细介绍如何读取上传的图片文件,将其转换为 YOLOv8 模型可以接受的格式,并返回预测结果。通过本文的学习,你将掌握…

    2025年12月14日
    000
  • 使用 FastAPI 上传图像到 YOLOv8 模型进行预测

    本文档介绍了如何使用 FastAPI 构建一个 REST API 接口,该接口能够接收图像文件,并将其传递给 YOLOv8 模型进行预测。重点讲解如何处理上传的图像数据,将其转换为 YOLOv8 模型所支持的格式,并展示了完整的代码示例,帮助开发者快速搭建图像预测服务。 图像上传与处理 在使用 YO…

    2025年12月14日
    000
  • ORM(如 SQLAlchemy, Django ORM)的工作原理与优缺点

    ORM是连接面向对象编程与关系型数据库的桥梁,通过将数据库表映射为代码中的类和对象,实现用%ignore_a_1%操作数据而无需手动编写SQL。其核心机制包括模型定义、查询转换、会话管理与事务持久化,能显著提升开发效率、增强代码可维护性并支持数据库无关性。但ORM也带来性能开销、学习成本及N+1查询…

    2025年12月14日
    000
  • 列举Python中常见的数据结构及其特点。

    Python中最常见的数据结构包括列表、元组、字典和集合。列表是可变的有序序列,适合频繁修改的场景;元组是不可变的有序序列,用于固定数据;字典是键值对的无序集合,基于哈希表实现,查找效率高;集合是无序且不重复的元素集合,常用于去重和集合运算。此外,collections模块提供了deque、Coun…

    2025年12月14日
    000
  • 如何理解Python的生成器和迭代器?

    生成器和迭代器通过惰性求值实现内存高效的数据处理,适用于大文件、无限序列和数据管道。迭代器需实现__iter__和__next__方法,生成器则用yield简化创建过程,生成器函数适合复杂逻辑,生成器表达式适合简洁转换,二者均支持按需计算,避免内存溢出,提升性能与代码可读性。 Python中的生成器…

    2025年12月14日
    000
  • 优化FastAPI在Google Cloud上的错误报告:消除冗余异常

    在使用Google Cloud Run部署FastAPI应用时,Google Cloud Error Reporting常显示Uvicorn、AnyIO等框架产生的冗余异常,掩盖了实际业务错误。本文提供了一种解决方案,通过自定义FastAPI异常处理器并结合raise exc from None,有…

    2025年12月14日
    000
  • 将十六进制文本转换为特定JSON格式的教程

    本文档详细介绍了如何使用 Python 将包含十六进制数据的文本文件转换为特定格式的 JSON 文件。通过使用正则表达式解析文本,将十六进制值转换为十进制,并构建符合要求的 JSON 结构,最终实现数据转换的目标。本文提供完整代码示例,并对关键步骤进行解释,帮助读者理解并应用该方法。 数据转换流程 …

    2025年12月14日
    000
  • 如何高效地连接多个字符串?

    答案是使用StringBuilder或join等方法可高效拼接字符串。Python推荐str.join(),Java和C#使用StringBuilder,JavaScript推荐Array.prototype.join()或模板字面量,核心是减少内存分配与对象创建,同时需权衡可读性、数据量、线程安全…

    2025年12月14日
    000
  • 如何理解Python中的并发与并行?

    并发指一段时间内处理多个任务,并行指同一时刻执行多个任务。Python因GIL限制,多线程无法实现真正并行,但可通过多进程、异步IO等方式实现并发与并行。GIL导致多线程在CPU密集型任务中性能受限,但在IO密集型任务中仍有效。多线程适用于IO密集型场景,多进程可绕过GIL实现CPU密集型任务的并行…

    2025年12月14日
    000
  • 如何用Python实现常见的排序算法(快排、归并)?

    快速排序的pivot选择策略包括随机选择和三数取中法,可提升算法效率;归并排序空间复杂度较高,可通过迭代实现或链表结构优化;算法选择需根据数据规模、特点、空间限制和稳定性要求综合考虑,实际中Python内置排序采用Timsort算法。 Python实现排序算法,核心在于理解算法逻辑并巧妙运用Pyth…

    2025年12月14日
    000
  • 如何用Python实现一个命令行工具?

    使用Python的argparse模块可高效构建命令行工具,如实现文件复制与行数统计功能,通过子命令和参数解析提升用户体验;结合Click、Typer等第三方库可进一步简化开发,增强功能与可读性。 Python在构建命令行工具方面有着得天独厚的优势,无论是内置的 argparse 模块,还是像 Cl…

    2025年12月14日
    000
  • 高效 Pandas 数据聚合:计算分组百分比利用率

    本文旨在介绍如何使用 Pandas 库高效地对 DataFrame 进行分组聚合,并计算特定指标的百分比利用率。通过 groupby() 和 transform() 方法,避免使用低效的 apply() 函数,实现更快速、简洁的数据处理。我们将以计算设备带宽利用率为例,演示具体操作步骤和代码示例。 …

    2025年12月14日
    000
  • Pandas DataFrame 数据聚合:高效计算分组百分比

    本文旨在介绍如何使用 Pandas DataFrame 对数据进行分组聚合,并计算特定列的百分比。我们将通过一个实际案例,演示如何按设备 (Device) 对带宽使用情况 (Bw_in, Bw_out) 进行汇总,并计算其占总流量 (In, Out) 的百分比,从而高效地实现数据分析目标。 使用 g…

    2025年12月14日
    000
  • functools 模块中的 lru_cache 和 wraps

    lru_cache通过缓存函数结果提升性能,wraps保留被装饰函数的元信息以确保代码可维护性。两者在优化与调试中互补使用,适用于递归、I/O操作等重复计算场景,且需合理配置maxsize和typed参数以平衡性能与内存开销。 functools 模块中的 lru_cache 和 wraps 是Py…

    2025年12月14日
    000
  • 如何使用虚拟环境(Virtualenv)?

    虚拟环境能解决依赖冲突,通过为每个Python项目创建独立环境,实现库和解释器的隔离,避免版本冲突,确保项目间互不干扰。 虚拟环境(Virtualenv)是Python开发中一个非常基础但极其重要的工具,它允许你为每个项目创建独立的Python运行环境,从而有效地隔离不同项目所需的库和依赖,彻底解决…

    2025年12月14日
    000
  • 使用 FastAPI 上传图片并传递给 YOLOv8 模型

    本文档旨在指导开发者如何使用 FastAPI 框架构建一个 REST API 接口,该接口能够接收图片上传,并将图片数据传递给 YOLOv8 模型进行处理。我们将重点介绍如何处理上传的图片文件,并将其转换为 YOLOv8 模型能够接受的格式,解决直接传递字节数据导致的 “Unsuppor…

    2025年12月14日
    000
  • 将十六进制文本转换为指定 JSON 格式的教程

    本文档旨在指导开发者如何使用 Python 将包含十六进制数据的文本文件转换为特定格式的 JSON 文件。该过程涉及读取文本文件,解析十六进制数据,将其转换为十进制,并最终以指定的 JSON 结构输出。通过本文,你将学习如何使用正则表达式提取数据,以及如何构建符合要求的 JSON 结构。 1. 理解…

    2025年12月14日
    000
  • 如何使用collections模块中的常用数据结构(defaultdict, Counter, deque)?

    defaultdict、Counter和deque是Python collections模块中高效处理数据分组、计数和双端操作的工具。defaultdict通过自动初始化缺失键提升代码简洁性与效率;Counter专用于可哈希对象的频率统计,提供most_common等便捷方法,适合大数据计数但需注意…

    2025年12月14日
    000
  • Django 中的中间件(Middleware)及其作用

    Django中间件在请求-响应周期中扮演关键角色,它在请求到达视图前和响应返回客户端前进行全局处理,支持认证、安全、日志等跨领域功能。通过自定义中间件类并注册到MIDDLEWARE列表,开发者可灵活插入逻辑,实现如IP限制、性能监控等功能。其执行顺序遵循配置列表,请求正序、响应倒序,且可通过返回Ht…

    2025年12月14日
    000
  • 将十六进制文本转换为特定JSON格式的Python教程

    本文将介绍如何使用Python将包含十六进制数据的文本文件转换为特定格式的JSON文件。我们将首先解析文本文件,提取相关信息,然后将十六进制数据转换为十进制,最后按照预定的JSON结构进行组织和输出。 准备工作 在开始之前,请确保你已经安装了Python环境。本教程使用Python 3.x版本。你还…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信