使用Pandas cummax 函数高效跟踪数据流中的累计最大值

使用pandas cummax 函数高效跟踪数据流中的累计最大值

本文详细介绍了如何在Pandas DataFrame中高效地创建一个新列,该列能够跟踪并保留数据流中遇到的累计最大值。通过利用Pandas内置的`cummax()`函数,可以简洁而优雅地解决当序列值增加时更新最大值,并在值下降时保持前一个最大值的需求,避免了复杂的迭代或分组逻辑。

需求概述:跟踪并保留累计最大值

在数据分析场景中,我们经常需要处理序列数据,并希望在一个新列中记录某个特定指标的“历史最高点”。具体来说,需求是这样的:对于DataFrame中的一列(例如a),我们希望创建一个新列c。c列的每个值应是到当前行为止,a列中出现过的最大值。这意味着,如果当前行的a值大于c列的当前值(即之前的累计最大值),那么c列就更新为这个新的最大值;如果当前行的a值小于或等于c列的当前值,c列则保持不变,继续保留之前的累计最大值。

让我们通过一个具体的DataFrame示例来阐明这一需求:

import pandas as pddf = pd.DataFrame(    {        'a': [110, 115, 112, 180, 150, 175, 160, 145, 200, 205, 208, 203, 206, 207, 208, 209, 210, 215],        'b': [1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1], # 'b'列在此问题中作为辅助理解,但并非解决核心问题的必要条件    })print("原始DataFrame:")print(df)

期望得到的输出df[‘c’]列如下:

      a  b    c0   110  1  1101   115  1  1152   112  0  115 # a[2]=112 < c[1]=115, c保持1153   180  1  1804   150  0  180 # a[4]=150 < c[3]=180, c保持1805   175  1  180 # a[5]=175 < c[4]=180, c保持1806   160  0  1807   145  0  1808   200  1  2009   205  1  20510  208  1  20811  203  0  208 # a[11]=203 < c[10]=208, c保持208...

传统思路与潜在复杂性

初次面对这类问题时,开发者可能会倾向于考虑使用循环、条件判断,或者利用groupby结合一些自定义函数来识别“连续上涨”的“streak”并提取其中的最大值。例如,尝试通过df[‘b’].ne(df[‘b’].shift()).cumsum()来标识连续块,然后对这些块进行max操作。这种方法虽然在某些分组场景下有效,但对于单纯的“累计最大值”问题而言,会引入不必要的复杂性,并且可能效率较低。

简洁高效的解决方案:pandas.Series.cummax()

Pandas库为这类累计计算提供了非常强大的内置函数。针对“累计最大值”的需求,最直接且最高效的工具是pandas.Series.cummax()方法。

cummax()函数的作用是计算Series的累计最大值。它遍历Series中的每个元素,并返回一个新Series,其中每个位置的值是到当前位置为止,原始Series中出现过的最大值。这完美契合了我们的需求。

实现代码:

# 使用cummax()函数创建列'c'df['c'] = df['a'].cummax()print("n处理后的DataFrame:")print(df)

输出结果:

原始DataFrame:      a  b0   110  11   115  12   112  03   180  14   150  05   175  16   160  07   145  08   200  19   205  110  208  111  203  012  206  113  207  114  208  115  209  116  210  117  215  1处理后的DataFrame:      a  b    c0   110  1  1101   115  1  1152   112  0  1153   180  1  1804   150  0  1805   175  1  1806   160  0  1807   145  0  1808   200  1  2009   205  1  20510  208  1  20811  203  0  20812  206  1  20813  207  1  20814  208  1  20815  209  1  20916  210  1  21017  215  1  215

从输出可以看出,df[‘c’]列完全符合预期的行为,简洁而高效地实现了累计最大值的跟踪。

扩展:如何生成辅助列 b

原始问题中提到了一个辅助列b,其定义是当df.a > df.a.shift(1)时为1,否则为0。虽然在解决累计最大值问题时b列并非必需,但了解如何程序化地生成它也是一个很好的实践。

可以使用gt()(大于)方法结合shift()来比较当前行与上一行a的值,然后将布尔结果转换为整数:

# 生成列'b'的正确方法df['b_generated'] = (df['a'] > df['a'].shift(1)).astype(int)print("n带有生成b列的DataFrame:")print(df[['a', 'b', 'b_generated', 'c']])

输出示例:

带有生成b列的DataFrame:      a  b  b_generated    c0   110  1            0  110 # shift(1)对于第一行是NaN,比较结果为False1   115  1            1  1152   112  0            0  1153   180  1            1  1804   150  0            0  1805   175  1            1  1806   160  0            0  1807   145  0            0  1808   200  1            1  2009   205  1            1  20510  208  1            1  20811  203  0            0  20812  206  1            1  20813  207  1            1  20814  208  1            1  20815  209  1            1  20916  210  1            1  21017  215  1            1  215

注意: 原始数据中的b列与根据规则生成的b_generated列在第一行有所不同。这是因为df.a.shift(1)在第一行会产生NaN,任何与NaN的比较(包括>)都会返回False。如果希望第一行b为1,可能需要对第一行进行特殊处理或调整逻辑。然而,对于本教程的核心问题——计算c列,b列的存在与否或其具体生成方式并不影响cummax()的正确应用。

总结

当需要在一个Pandas Series中跟踪并保留到当前点为止的累计最大值时,pandas.Series.cummax()函数是最佳选择。它提供了一个高度优化且易于理解的解决方案,避免了手动迭代或复杂的自定义函数,极大地提高了代码的简洁性和执行效率。掌握这类Pandas内置的累计函数(如cummin(), cumsum(), cumprod()等)对于高效处理时间序列或顺序数据至关重要。

以上就是使用Pandas cummax 函数高效跟踪数据流中的累计最大值的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1381502.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 23:01:05
下一篇 2025年12月14日 23:01:16

相关推荐

发表回复

登录后才能评论
关注微信