使用 Pandas 实现条件性累积最小值（cummin）重置的技巧

程序猿 • 2025年12月14日 23:55:17 • 用户投稿 • 阅读 0

本文深入探讨了在 Pandas DataFrame 中，如何创建一个新列 c，该列的值基于列 b 的累积最小值 (cummin())，但其计算过程会根据列 a 和 c 的前一个值的特定条件进行动态重置。我们将通过一个复杂的布尔掩码和分组操作的组合，展示一个高效且完全向量化的解决方案，以应对这种递归依赖的计算挑战。

在数据分析和处理中，我们经常需要根据复杂的业务逻辑创建新的特征列。其中一种常见的需求是计算累积最小值 (cummin())，但更具挑战性的是，当这个累积最小值需要在特定条件下“重置”并重新开始计算时。本教程将详细介绍如何使用 Pandas 库，以向量化的方式解决一个具体的问题：创建一个新列 c，它基于列 b 的累积最小值，但在满足 df.a.shift(1) > df.c.shift(1) 这一条件时，c 的值变为当前 b 的值，并且 cummin() 的计算从该点重新开始。

问题描述与初始数据

假设我们有一个 Pandas DataFrame，包含两列 a 和 b：

import pandas as pddf = pd.DataFrame(    {        'a': [98, 97, 100, 135, 103, 100, 105, 109, 130],        'b': [100, 103, 101, 105, 110, 120, 101, 150, 160]    })print("原始 DataFrame:")print(df)

我们的目标是创建列 c，其计算规则如下：

初始时，c 的值是 b 的累积最小值 (df.b.cummin())。当满足条件 df.a.shift(1) > df.c.shift(1) 时，当前行的 c 值应等于当前行的 b 值。更重要的是，一旦条件满足，cummin() 的计算将从当前行开始“重置”，即后续行的 c 值将是当前行 b 值开始的累积最小值。

这是一个具有挑战性的问题，因为它涉及到对 c 列的递归依赖（c 的计算依赖于其自身的先前值），这使得简单的向量化操作变得困难。

期望的输出 df 如下：

     a    b    c0   98  100  1001   97  103  1002  100  101  1003  135  105  1004  103  110  110  # 条件触发，c=b，cummin重置5  100  120  110  # 从上一行b=110开始的cummin6  105  101  101  # 从上一行b=110开始的cummin7  109  150  150  # 条件触发，c=b，cummin重置8  130  160  150  # 从上一行b=150开始的cummin

向量化解决方案

为了解决这种带有条件重置的累积计算问题，我们可以利用 Pandas 的 groupby 和布尔掩码 (mask, where) 功能。以下是实现所需逻辑的向量化代码：

m1 = df["b"].le(df["a"].shift())cm = df["b"].groupby(m1.cumsum()).cummin()m2 = (df["b"].le(cm) | df["a"].shift().le(cm.shift()))df["c"] = cm.where(m2, df["b"].mask(m2).cummin())print("n生成列 'c' 后的 DataFrame:")print(df)

解决方案详解

这个解决方案通过引入几个中间布尔掩码和分组累积操作，巧妙地避免了递归计算，实现了完全的向量化。让我们逐步解析每个部分的含义：

m1 = df[“b”].le(df[“a”].shift())

这一步创建了一个布尔序列 m1，用于标识 b 的当前值是否小于或等于 a 的前一个值。df[“a”].shift() 将 a 列向下移动一位，使得当前行可以与前一行的 a 值进行比较。le() 是 “less than or equal to” 的缩写。m1 的作用是识别潜在的“重置点”或“新组的开始”。当 b 相对前一个 a 变得足够小（或相等）时，这可能意味着一个新的累积最小值序列的开始。

示例 m1 值的生成：

a_s (a.shift())  b    b  m1NaN              100  False98.0             103  False97.0             101  False100.0            105  False135.0            110  True   # b(110) <= a_s(135)103.0            120  False100.0            101  False105.0            150  False109.0            160  False

cm = df[“b”].groupby(m1.cumsum()).cummin()

m1.cumsum()：这一步是关键。m1 中的 True 值会被视为 1，False 视为 0。cumsum() 会计算这些 0 和 1 的累积和。当 m1 遇到一个 True 时，累积和会增加 1，从而创建一个新的组 ID。例如，如果 m1 是 [F, F, T, F, T]，那么 m1.cumsum() 将是 [0, 0, 1, 1, 2]。df[“b”].groupby(m1.cumsum())：根据 m1.cumsum() 生成的组 ID 对 b 列进行分组。.cummin()：在每个分组内部独立地计算 b 的累积最小值。这有效地实现了“条件性重置”的累积最小值，即每当 m1 为 True 时，累积最小值就会重新开始计算。

示例 cm 值的生成：

m1        m1.cumsum()  b       cm (分组cummin)False     0            100     100False     0            103     100False     0            101     100False     0            105     100True      1            110     110False     1            120     110False     1            101     101False     1            150     101False     1            160     101

m2 = (df[“b”].le(cm) | df[“a”].shift().le(cm.shift()))

m2 是一个最终的布尔掩码，用于决定 c 列的每个值应该从 cm 中取，还是从一个独立的、基于 b 的 cummin 中取。它由两个条件通过逻辑或 (|) 组合而成：df[“b”].le(cm)：当前 b 值是否小于或等于 cm 值。如果为真，意味着 b 仍在当前 cm 序列的范围内。df[“a”].shift().le(cm.shift())：a 的前一个值是否小于或等于 cm 的前一个值。如果为真，表示前一个状态仍然符合累积最小值的逻辑。当 m2 为 True 时，表示 cm 中的值是有效的，可以作为 c 的值。当 m2 为 False 时，表示 cm 中的值不再有效（例如，当前 b 值远大于 cm，或者前一个 a 值相对于前一个 cm 值过大），此时需要启动一个新的 cummin 序列，其起始值就是当前的 b。

示例 m2 值的生成：

b    cm   b<=cm  a_s  cm_s  a_s<=cm_s  m2 (b<=cm | a_scm(101) 且 a_s(105)>cm_s(101)160  101  False  109  101   False      False  # b(160)>cm(101) 且 a_s(109)>cm_s(101)

df[“c”] = cm.where(m2, df[“b”].mask(m2).cummin())

这是最终 c 列的构造步骤。cm.where(m2, …)：where 函数根据布尔条件 m2 来选择值。如果 m2 为 True，则 c 的值取自 cm。如果 m2 为 False，则 c 的值取自 where 函数的第二个参数。df[“b”].mask(m2)：

以上就是使用 Pandas 实现条件性累积最小值（cummin）重置的技巧的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1382444.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Python re.sub 非贪婪匹配与自定义替换函数处理多行文本

上一篇 2025年12月14日 23:55:09

python中如何使用RE正则表达检验字符串

下一篇 2025年12月14日 23:55:22

用户投稿

D语言在追踪JIT编译器开发中的适用性探讨

本文深入探讨了D语言作为追踪JIT编译器开发#%#$#%@%@%$#%$#%#%#$%@_20dc++e2c6fa909a5cd62526615fe2788a的适用性。重点分析了D语言在低级内存控制、指针算术、可执行内存管理、与自身垃圾回收器（GC）的协同以及与C语言的互操作性方面的能力。文章指出D…

程序猿
2025年12月15日
0000
用户投稿

Golang享元模式对象复用与性能优化

享元模式通过共享内在状态减少内存使用，Golang中结合工厂模式与并发安全map实现对象复用，适用于大量相似对象场景，显著降低GC压力，但增加设计复杂性。在Golang中，享元模式（Flyweight Pattern）的核心在于通过共享来最小化内存使用，特别是在需要创建大量相似对象时。它通过将对象…

程序猿
2025年12月15日
1000
用户投稿

Go语言中的数组与切片：深度解析与常见误区

本文深入探讨Go语言中数组（Array）与切片（Slice）这两种核心数据类型的区别。我们将阐明它们在值语义、类型定义和内存管理上的本质差异，重点剖析[]int{…}语法为何代表切片而非数组，并通过sort.Ints函数示例，揭示其对数据修改行为的影响，帮助开发者避免常见混淆。 Go语言…

程序猿
2025年12月15日
0000
用户投稿

GolangHTTP客户端请求与响应处理

Go语言通过net/http包实现HTTP客户端请求与响应处理，支持GET、POST等方法，可使用http.Get快速发起请求或通过http.Client自定义超时、头部等配置；响应包含状态码、头信息和响应体，需检查错误、关闭Body并处理非2xx状态码，推荐分块读取大文件以避免内存溢出。在Go语…

程序猿
2025年12月15日
0000
用户投稿

Golangencoding/csv读取与写入CSV文件示例

Go语言通过encoding/csv包高效处理CSV文件读写。首先使用os.Open打开文件，结合csv.NewReader读取数据，可调用ReadAll()一次性读取或Read()逐行读取以节省内存；写入时用os.Create创建文件，csv.NewWriter写入数据，需注意调用Flush()确…

程序猿
2025年12月15日
1000
用户投稿

Golang微服务日志收集与链路追踪方法

统一日志格式与链路追踪是Golang微服务可观测性的核心，推荐使用zap等结构化日志库输出含trace_id、span_id的JSON日志，通过Filebeat或Promtail集中收集至Elasticsearch或Loki；基于OpenTelemetry实现分布式追踪，通过HTTP Header传…

程序猿
2025年12月15日
0000
用户投稿

Golang单例模式并发安全实现技巧

答案：sync.Once是Go实现单例的首选，因其简洁、并发安全、性能高且保证初始化仅执行一次。它通过原子操作和互斥锁确保多Goroutine下初始化函数只运行一次，并建立happens-before关系，避免内存可见性问题，相比手动加锁更安全高效。在Go语言中，实现一个并发安全的单例模式，最直接…

程序猿
2025年12月15日
0000
用户投稿

Golang GoLand插件配置及调试环境优化

答案是通过精选插件和优化调试配置提升GoLand开发效率。首先选择Protobuf、Docker、数据库工具等核心插件，解决微服务、容器化和数据库操作痛点；其次利用Delve调试器配置本地与远程调试，结合条件断点、日志断点及协程调试实现高效问题定位；最后通过代码格式化、文件监听器、Live Temp…

程序猿
2025年12月15日
1000
用户投稿

Golang并发安全map操作实践

Go中并发安全map的选择需根据场景权衡：读多写少且键集稳定时优先使用sync.Map，因其内部优化读操作；若需复杂原子操作或写频繁，则用sync.RWMutex保护普通map更灵活；大量删除场景应注意sync.Map内存堆积问题，结合压测选择最优方案。在Go语言中，map本身不是并发安全的，多个…

程序猿
2025年12月15日
0000
用户投稿

Go net/http 服务：实现动态注册与注销 Handler 的高级指南

本教程深入探讨了Go语言net/http库中动态管理HTTP路由的需求与实现。针对标准库http.ServeMux无法在运行时注销Handler的限制，文章提出并详细阐述了通过自定义ServeMux来支持Handler的动态注册和注销的解决方案。通过提供具体的代码示例和注意事项，指导开发者构建灵活且…

程序猿
2025年12月15日
0000
用户投稿

mgo驱动深度指南：MongoDB嵌套文档操作、Go字段映射与非结构化数据处理

本教程详细阐述了Go语言mgo驱动在MongoDB中处理嵌套文档的策略，包括如何使用点操作符进行字段更新与删除。同时，深入探讨了Go结构体与MongoDB字段的映射规则，特别是通过bson标签处理命名约定。最后，介绍了如何灵活获取非结构化文档数据。 1. mgo与MongoDB嵌套文档操作在mon…

程序猿
2025年12月15日
0000
用户投稿

在Go中通过exec.Command执行sed命令的最佳实践

本文探讨了在Go语言中使用exec.Command调用sed命令时常见的参数解析问题。通过分析sed命令参数的正确传递方式，特别是避免 shell 引用陷阱，提供了在Go程序中安全、高效执行外部命令，尤其是像sed这样需要复杂参数的工具的实践方法。在go语言中，os/exec包提供了执行外部命令的…

程序猿
2025年12月15日
0000
用户投稿

Golang代码性能分析与性能瓶颈定位

首先使用pprof进行CPU分析，通过net/http/pprof收集30秒CPU数据，用top和web命令定位热点函数；再分析内存，获取heap profile，关注inuse_space和对象分配；接着检查goroutine阻塞，排查channel或context导致的泄漏；最后结合压测与优化对…

程序猿
2025年12月15日
0000
用户投稿

GolangHTTP请求重定向与跳转处理示例

Golang中HTTP客户端默认自动跟随3xx重定向，最多10次，通过http.Client的CheckRedirect字段可自定义行为，如限制次数、校验目标域名或禁用重定向，避免安全风险与性能问题。 Golang处理HTTP请求重定向，默认情况下， net/http 包的客户端会自动追踪3xx状态…

程序猿
2025年12月15日
0000
用户投稿

Golang并发基础与goroutine使用方法

Go语言通过goroutine和channel实现高效并发，goroutine是轻量级线程，用go关键字启动，开销小；配合sync.WaitGroup协调执行，确保主函数等待所有任务完成；通过channel进行数据传递，避免共享内存，实现安全通信。 Go语言的并发能力是其核心优势之一，它通过goro…

程序猿
2025年12月15日
0000
用户投稿

Golang异常捕获与程序健壮性设计

Go语言通过显式错误返回和panic/recover机制提升程序健壮性，强调错误处理的清晰性与主动性，要求开发者在函数调用中显式处理error，避免隐藏异常流，并利用错误包装传递上下文，同时限制panic/recover仅用于不可恢复的严重错误，确保控制流可预测、可维护。 Go语言在异常捕获和程序健…

程序猿
2025年12月15日
0000
用户投稿

Golang使用ioutil简化文件操作方法

ioutil包通过封装文件读写和目录操作为高层函数（如ReadFile、WriteFile、ReadDir）简化了Go语言中的I/O流程，使开发者无需手动管理文件句柄和缓冲区，减少样板代码；其核心优势在于一站式完成常见操作，但因将整个文件加载到内存，在处理大文件时存在内存溢出风险；自Go 1.16起…

程序猿
2025年12月15日
0000
用户投稿

Golang并发安全缓存实现与访问技巧

使用 sync.RWMutex 保护 map 实现并发安全缓存，读多写少场景高效；2. 高频读写推荐 sync.Map，免锁优化性能；3. 防击穿用逻辑过期加互斥锁，防雪崩设随机过期时间；4. 结合 context 控制操作超时，提升系统健壮性。在高并发场景下，缓存是提升系统性能的关键组件。Go语…

程序猿
2025年12月15日
0000
用户投稿

Golang数据库开发环境驱动包安装指南

答案：本文介绍了在Golang中安装和配置MySQL数据库驱动的完整流程，包括选择驱动、安装包、导入并使用blank import注册驱动、连接数据库及处理常见错误。详细说明了如何通过sql.Open()建立连接、使用db.Ping()检测连接、处理“no such host”等网络问题，并讲解了如…

程序猿
2025年12月15日
0000
用户投稿

Golang性能测试与基准分析实践

基准测试需以Benchmark开头并使用*testing.B参数，通过b.N循环执行代码，重置计时器排除初始化开销，结合pprof分析性能瓶颈。 Go语言内置的 testing 包提供了强大的性能测试支持，通过基准测试（Benchmark）可以准确衡量代码的执行效率。要进行有效的性能分析，不能只看运…

程序猿
2025年12月15日
0000