
本文详细介绍了如何在Pandas DataFrame中高效地创建一个新列,该列能够跟踪并保留数据流中遇到的累计最大值。通过利用Pandas内置的`cummax()`函数,可以简洁而优雅地解决当序列值增加时更新最大值,并在值下降时保持前一个最大值的需求,避免了复杂的迭代或分组逻辑。
需求概述:跟踪并保留累计最大值
在数据分析场景中,我们经常需要处理序列数据,并希望在一个新列中记录某个特定指标的“历史最高点”。具体来说,需求是这样的:对于DataFrame中的一列(例如a),我们希望创建一个新列c。c列的每个值应是到当前行为止,a列中出现过的最大值。这意味着,如果当前行的a值大于c列的当前值(即之前的累计最大值),那么c列就更新为这个新的最大值;如果当前行的a值小于或等于c列的当前值,c列则保持不变,继续保留之前的累计最大值。
让我们通过一个具体的DataFrame示例来阐明这一需求:
import pandas as pddf = pd.DataFrame( { 'a': [110, 115, 112, 180, 150, 175, 160, 145, 200, 205, 208, 203, 206, 207, 208, 209, 210, 215], 'b': [1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1], # 'b'列在此问题中作为辅助理解,但并非解决核心问题的必要条件 })print("原始DataFrame:")print(df)
期望得到的输出df[‘c’]列如下:
a b c0 110 1 1101 115 1 1152 112 0 115 # a[2]=112 < c[1]=115, c保持1153 180 1 1804 150 0 180 # a[4]=150 < c[3]=180, c保持1805 175 1 180 # a[5]=175 < c[4]=180, c保持1806 160 0 1807 145 0 1808 200 1 2009 205 1 20510 208 1 20811 203 0 208 # a[11]=203 < c[10]=208, c保持208...
传统思路与潜在复杂性
初次面对这类问题时,开发者可能会倾向于考虑使用循环、条件判断,或者利用groupby结合一些自定义函数来识别“连续上涨”的“streak”并提取其中的最大值。例如,尝试通过df[‘b’].ne(df[‘b’].shift()).cumsum()来标识连续块,然后对这些块进行max操作。这种方法虽然在某些分组场景下有效,但对于单纯的“累计最大值”问题而言,会引入不必要的复杂性,并且可能效率较低。
简洁高效的解决方案:pandas.Series.cummax()
Pandas库为这类累计计算提供了非常强大的内置函数。针对“累计最大值”的需求,最直接且最高效的工具是pandas.Series.cummax()方法。
cummax()函数的作用是计算Series的累计最大值。它遍历Series中的每个元素,并返回一个新Series,其中每个位置的值是到当前位置为止,原始Series中出现过的最大值。这完美契合了我们的需求。
实现代码:
# 使用cummax()函数创建列'c'df['c'] = df['a'].cummax()print("n处理后的DataFrame:")print(df)
输出结果:
原始DataFrame: a b0 110 11 115 12 112 03 180 14 150 05 175 16 160 07 145 08 200 19 205 110 208 111 203 012 206 113 207 114 208 115 209 116 210 117 215 1处理后的DataFrame: a b c0 110 1 1101 115 1 1152 112 0 1153 180 1 1804 150 0 1805 175 1 1806 160 0 1807 145 0 1808 200 1 2009 205 1 20510 208 1 20811 203 0 20812 206 1 20813 207 1 20814 208 1 20815 209 1 20916 210 1 21017 215 1 215
从输出可以看出,df[‘c’]列完全符合预期的行为,简洁而高效地实现了累计最大值的跟踪。
扩展:如何生成辅助列 b
原始问题中提到了一个辅助列b,其定义是当df.a > df.a.shift(1)时为1,否则为0。虽然在解决累计最大值问题时b列并非必需,但了解如何程序化地生成它也是一个很好的实践。
可以使用gt()(大于)方法结合shift()来比较当前行与上一行a的值,然后将布尔结果转换为整数:
# 生成列'b'的正确方法df['b_generated'] = (df['a'] > df['a'].shift(1)).astype(int)print("n带有生成b列的DataFrame:")print(df[['a', 'b', 'b_generated', 'c']])
输出示例:
带有生成b列的DataFrame: a b b_generated c0 110 1 0 110 # shift(1)对于第一行是NaN,比较结果为False1 115 1 1 1152 112 0 0 1153 180 1 1 1804 150 0 0 1805 175 1 1 1806 160 0 0 1807 145 0 0 1808 200 1 1 2009 205 1 1 20510 208 1 1 20811 203 0 0 20812 206 1 1 20813 207 1 1 20814 208 1 1 20815 209 1 1 20916 210 1 1 21017 215 1 1 215
注意: 原始数据中的b列与根据规则生成的b_generated列在第一行有所不同。这是因为df.a.shift(1)在第一行会产生NaN,任何与NaN的比较(包括>)都会返回False。如果希望第一行b为1,可能需要对第一行进行特殊处理或调整逻辑。然而,对于本教程的核心问题——计算c列,b列的存在与否或其具体生成方式并不影响cummax()的正确应用。
总结
当需要在一个Pandas Series中跟踪并保留到当前点为止的累计最大值时,pandas.Series.cummax()函数是最佳选择。它提供了一个高度优化且易于理解的解决方案,避免了手动迭代或复杂的自定义函数,极大地提高了代码的简洁性和执行效率。掌握这类Pandas内置的累计函数(如cummin(), cumsum(), cumprod()等)对于高效处理时间序列或顺序数据至关重要。
以上就是使用Pandas cummax 函数高效跟踪数据流中的累计最大值的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1381502.html
微信扫一扫
支付宝扫一扫