
高效为DataFrame数据列添加连续序号,并使相同值共享序号
本文介绍如何使用Python的pandas库,高效地为DataFrame数据列添加连续序号,且相同数据值共享同一序号。
问题描述: 需要根据DataFrame中某列的值,生成一个新的序号列。连续的相同值拥有相同的序号,不同的值则序号递增。例如,输入数据列[11, 21, 24, 24, 24, 25, 25, 26],期望输出序号列[1, 2, 3, 3, 3, 4, 4, 5]。
解决方案: 利用pandas和numpy库,可以简洁地实现此功能。以下代码演示了如何使用numpy.cumsum和pandas.DataFrame.diff方法:
立即学习“Python免费学习笔记(深入)”;
import numpy as npimport pandas as pddata = [11, 21, 24, 24, 24, 24, 25, 25, 26, 26, 26, 26, 23, 26, 26, 26, 26, 20, 26, 26, 26, 26]df = pd.DataFrame({'data': data, 'nums': 0})df['nums'] = np.cumsum(df['data'].diff() != 0) +1print(df)
代码首先创建一个包含’data’列的DataFrame,并初始化一个名为’nums’的序号列为0。 df['data'].diff()计算’data’列相邻元素的差值。!= 0判断差值是否为0,结果为布尔值序列。np.cumsum对布尔序列进行累加,得到最终序号。数据变化时,差值不为0,计数器加1;数据不变时,差值为0,计数器不变,实现相同数据共享相同序号。 最后加1是为了序号从1开始。
运行结果:
data nums0 11 11 21 22 24 33 24 34 24 35 24 36 25 47 25 48 26 59 26 510 26 511 26 512 23 613 26 714 26 715 26 716 26 717 20 818 26 919 26 920 26 921 26 9
此方法高效简洁地解决了问题,np.cumsum巧妙地利用了布尔值序列的累加特性。
以上就是如何使用Python高效地为DataFrame数据列添加连续序号,并使相同数据共享相同序号?的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1358127.html
微信扫一扫
支付宝扫一扫