使用 Pandas 根据多列和时间分配唯一ID

使用 pandas 根据多列和时间分配唯一id

本文介绍了如何使用 Pandas 根据日期、名称、产品以及经过时间这四个维度为数据帧分配唯一ID。核心在于当相同日期、名称和产品组合下,经过时间大于等于100秒时,ID需要递增,直到日期、名称或产品发生变化。本文提供两种解决方案,并解释了其原理和适用场景。

解决方案一:基于比较和累积求和

此方案的核心思想是:首先,比较当前行与前一行的 “Date”、”Name” 和 “Product” 列的值是否发生变化;然后,判断 “Elapsed_time” 是否大于等于 100。只要上述两个条件中的任何一个成立,就递增 ID。

以下是实现该功能的代码:

import pandas as pd# 示例数据data = {'Date': ['10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/26/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23'],        'Name': ['Bill', 'Bill', 'John', 'John', 'John', 'John', 'John', 'Carl', 'Carl', 'Carl', 'Carl', 'Carl', 'Carl', 'Carl'],        'Product': ['A', 'A', 'B', 'B', 'B', 'B', 'C', 'A', 'A', 'A', 'A', 'B', 'A', 'A'],        'Elapsed_time': [30, 99, 10, 100, 1, 15, 45, 120, 99, 80, 101, 300, 12, 37]}df = pd.DataFrame(data)cols = ['Date', 'Name', 'Product']df['id'] = (df[cols].ne(df[cols].shift())     .assign(x=df['Elapsed_time'].ge(100))     .any(axis=1).cumsum()    )print(df)

代码解释:

cols = [‘Date’, ‘Name’, ‘Product’]: 定义需要进行比较的列名列表。df[cols].ne(df[cols].shift()): 使用 shift() 函数将 “Date”、”Name” 和 “Product” 列向下移动一行,然后使用 ne() 函数比较当前行与前一行是否不同。这将返回一个布尔型 DataFrame,指示哪些列发生了变化。.assign(x=df[‘Elapsed_time’].ge(100)): 创建一个新的布尔列 ‘x’,指示 “Elapsed_time” 是否大于等于 100。.any(axis=1): 对每一行应用 any() 函数,检查 “Date”、”Name”、”Product” 是否有任何一个发生变化,或者 “Elapsed_time” 是否大于等于 100。只要满足其中一个条件,就返回 True。.cumsum(): 对布尔型 Series 应用 cumsum() 函数,计算累积和。由于 True 被视为 1,False 被视为 0,因此 cumsum() 会在每次满足条件时递增。

输出结果:

        Date  Name Product  Elapsed_time  id0   10/25/23  Bill       A            30   11   10/25/23  Bill       A            99   12   10/25/23  John       B            10   23   10/25/23  John       B           100   34   10/25/23  John       B             1   35   10/25/23  John       B            15   36   10/26/23  John       C            45   47   10/27/23  Carl       A           120   58   10/27/23  Carl       A            99   59   10/27/23  Carl       A            80   510  10/27/23  Carl       A           101   611  10/27/23  Carl       B           300   712  10/27/23  Carl       A            12   813  10/27/23  Carl       A            37   8

适用场景:

此方案适用于数据帧未排序的情况。它通过比较相邻行来确定 ID 是否需要递增,因此不受数据顺序的影响。

解决方案二:基于分组和累积求和 (原答案)

此方案基于数据帧已经按照 “Date”、”Name” 和 “Product” 列排序的前提。它首先使用 groupby() 函数对数据进行分组,然后为每个组分配一个唯一的 ID。此外,它还考虑了 “Elapsed_time” 大于等于 100 的情况,并根据需要递增 ID。

以下是实现该功能的代码:

import pandas as pd# 示例数据data = {'Date': ['10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/26/23'],        'Name': ['Bill', 'Bill', 'John', 'John', 'John', 'John', 'John'],        'Product': ['A', 'A', 'B', 'B', 'B', 'B', 'C'],        'Elapsed_time': [30, 99, 10, 100, 1, 15, 45]}df = pd.DataFrame(data)df['id'] = (df.groupby(['Date', 'Name', 'Product']).ngroup()              .add(1+df['Elapsed_time'].ge(100).cumsum())           )print(df)

代码解释:

df.groupby([‘Date’, ‘Name’, ‘Product’]).ngroup(): 使用 groupby() 函数对数据按照 “Date”、”Name” 和 “Product” 列进行分组,并使用 ngroup() 函数为每个组分配一个唯一的整数 ID。df[‘Elapsed_time’].ge(100).cumsum(): 创建一个布尔型 Series,指示 “Elapsed_time” 是否大于等于 100,然后使用 cumsum() 函数计算累积和。.add(1+ …): 将分组ID加上1,再加上Elapsed_time大于等于100的累积和。

输出结果:

       Date  Name Product  Elapsed_time  id0  10/25/23  Bill       A            30   11  10/25/23  Bill       A            99   12  10/25/23  John       B            10   23  10/25/23  John       B           100   34  10/25/23  John       B             1   35  10/25/23  John       B            15   36  10/26/23  John       C            45   4

适用场景:

此方案适用于数据帧已经按照 “Date”、”Name” 和 “Product” 列排序的情况。如果数据未排序,则结果可能不正确。

总结

本文介绍了两种使用 Pandas 根据多列和时间分配唯一ID的解决方案。第一种方案适用于数据帧未排序的情况,而第二种方案适用于数据帧已经排序的情况。选择哪种方案取决于数据的特点和需求。在实际应用中,请务必根据数据的实际情况选择合适的方案。此外,在处理时间数据时,请确保数据类型正确,并进行适当的格式转换。

以上就是使用 Pandas 根据多列和时间分配唯一ID的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1363522.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 03:27:28
下一篇 2025年12月14日 03:27:39

相关推荐

  • 使用循环在 Symfit 中构建模型和参数

    本文介绍了如何使用循环在 Symfit 库中动态地构建包含多个方程和参数的模型。通过示例代码,详细展示了如何解决 TypeError: can’t multiply sequence by non-int of type ‘float’ 错误,并提供了一种使用循环…

    好文分享 2025年12月14日
    000
  • 使用 Pandas 根据多列和时间分配唯一 ID

    本文旨在帮助你解决 Pandas DataFrame 中基于多列(日期、名称、产品)以及时间(经过时间)分配唯一 ID 的问题。在某些场景下,例如分析用户行为日志,需要对特定用户在特定日期对特定产品的操作进行分组,并根据操作时间间隔进行进一步的细分。如果同一用户在同一日期对同一产品的操作时间间隔超过…

    2025年12月14日
    000
  • 怎样用Python实现数据堆叠?stack与unstack方法

    在python中,数据堆叠与解堆叠的核心工具是pandas库的stack()和unstack()方法。1. stack()用于将列“堆叠”到行上,形成新的内层索引,适用于将宽格式数据转换为长格式;2. unstack()则相反,它将索引层级“解堆叠”到列上,常用于还原或转换长格式回宽格式。此外,st…

    2025年12月14日 好文分享
    000
  • 克服AWS Lambda Python函数部署包大小限制:容器镜像解决方案

    当Python Lambda函数因numpy、opencv等大型库超出250MB部署限制时,传统的ZIP包或Lambda层不再适用。本文详细介绍了如何利用AWS Lambda容器镜像来解决此问题,通过创建Dockerfile、构建Docker镜像并将其部署到ECR,最终在Lambda函数中使用,从而…

    2025年12月14日
    000
  • 如何使用Python开发爬虫?BeautifulSoup解析

    python爬虫开发的核心在于高效抓取和精准解析。1. 安装requests和beautifulsoup4库,用于发送http请求和解析html内容;2. 使用requests获取网页内容,并检查状态码确保请求成功;3. 利用beautifulsoup解析html,提取所需数据如链接和段落文本;4.…

    2025年12月14日 好文分享
    000
  • 克服AWS Lambda Python函数部署包大小限制:容器镜像方案详解

    当Python Lambda函数因包含numpy、opencv等大型依赖包而超出250MB的部署限制时,传统的zip包或Lambda层方法往往失效。本文将详细介绍如何利用AWS Lambda的容器镜像功能,将部署限制提升至10GB,从而轻松管理和部署大型Python依赖。我们将涵盖从创建Docker…

    2025年12月14日
    000
  • 如何使用Python处理点云?Open3D库指南

    python处理点云推荐使用open3d库,其提供了读取、可视化、滤波、分割、配准等功能。1. 安装open3d可使用pip或conda;2. 支持ply、pcd等格式的点云读取;3. 提供统计滤波和半径滤波去除噪声;4. 使用ransac进行平面分割;5. 通过icp算法实现点云配准;6. 可保存…

    2025年12月14日 好文分享
    000
  • 如何用Python实现人脸检测?dlib库配置方法

    人脸检测可通过#%#$#%@%@%$#%$#%#%#$%@_23eeeb4347bdd26bfc++6b7ee9a3b755dd的dlib库实现,需注意环境配置和模型选择。1. 安装前需确认python版本为3.6~3.9,并安装numpy、cmake,windows用户还需visual c++ b…

    2025年12月14日 好文分享
    000
  • 如何使用Python进行OCR?Tesseract识别

    使用python和tesseract进行ocr的核心步骤包括:1. 安装tesseract ocr引擎;2. 安装pytesseract库和pillow;3. 编写代码调用tesseract识别图片中的文字。安装tesseract时,windows用户需将其路径添加到环境变量或在代码中指定路径;ma…

    2025年12月14日 好文分享
    000
  • Python怎样进行时间预测?ARIMA模型实现方法

    python实现arima时间序列预测的步骤包括:1.数据准备并确保时间索引;2.进行adf检验判断平稳性,不平稳则差分处理;3.通过acf/pacf图确定p、d、q参数;4.拟合arima模型;5.预测并可视化结果。arima的p、d、q参数分别通过pacf图截尾位置定p,acf图截尾位置定q,差…

    2025年12月14日 好文分享
    000
  • 如何用Python操作PowerPoint?python-pptx教程

    要使用python操作powerpoint,核心方法是借助python-pptx库,1. 先安装该库:pip install python-pptx;2. 导入并创建或加载演示文稿对象prs = presentation();3. 添加幻灯片并选择布局如标题幻灯片、内容幻灯片等;4. 向幻灯片添加内…

    2025年12月14日 好文分享
    000
  • 解决AWS Lambda函数部署包大小限制:利用容器镜像

    本文旨在解决AWS Lambda函数部署时,因Python依赖包(如numpy、opencv)过大而超出250MB解压限制的问题。我们将详细介绍如何利用AWS Lambda的容器镜像功能,将部署包大小上限提升至10GB,并通过Dockerfile示例演示如何构建和部署包含大型依赖的Lambda函数。…

    2025年12月14日
    000
  • Python如何实现物体检测?YOLO模型应用

    物体检测可用python结合yolo模型实现,一、需先安装opencv和pytorch等依赖库;二、通过加载预训练模型如yolov5s进行图像或视频检测,并可自定义参数;三、利用opencv读取摄像头实时处理每一帧,实现快速检测;四、若需识别特定目标,可准备标注数据并重新训练模型以提升效果。 物体检…

    2025年12月14日 好文分享
    000
  • Python怎样处理气象数据?netCDF4库使用

    python处理netcdf气象数据的核心工具是netcdf4库,其流程为:1.使用dataset()打开文件;2.通过.dimensions、.variables和.ncattrs()查看结构信息;3.读取变量数据并进行操作;4.最后关闭文件。netcdf4支持创建、修改文件及高级功能如数据压缩、…

    2025年12月14日 好文分享
    000
  • 怎样用Python开发游戏?Pygame基础入门

    用python开发游戏借助pygame库并不难,适合初学者制作2d小游戏。1. 安装pygame可通过pip命令快速安装;2. 创建窗口需初始化并设置主循环以维持窗口运行;3. 显示图像通过加载图片并绘制到屏幕指定位置实现;4. 键盘输入处理可实时检测按键状态控制角色移动;5. 动画效果由连续切换多…

    2025年12月14日 好文分享
    000
  • Python怎样实现特征工程?特征选择方法

    特征工程的关键步骤和特征选择方法包括:缺失值处理、类别编码、标准化/归一化、多项式特征生成;特征选择方法有方差选择法、相关系数法、基于模型的特征选择、递归特征消除。在python中,缺失值处理可用simpleimputer或pandas.fillna(),类别编码使用onehotencoder或la…

    2025年12月14日 好文分享
    000
  • 怎样用Python处理科学计算?numpy基础指南

    numpy是python中科学计算的基础工具,提供高效的数组操作和数学运算功能。其核心为ndarray对象,可通过列表或元组创建数组,并支持多种内置函数生成数组,如zeros、ones、arange、linspace;数组运算默认逐元素执行,支持统计计算、矩阵乘法,且性能优于原生列表;索引与切片灵活…

    2025年12月14日 好文分享
    000
  • 谷歌地图评论数据抓取:Playwright 问题解析与Selenium方案优化

    本文深入探讨了使用Playwright抓取谷歌地图评论数据时遇到的常见问题,特别是评论数量和平均星级无法完整获取的挑战。通过分析现有代码的潜在缺陷,文章提出并详细阐述了如何利用Selenium WebDriver作为更健壮的替代方案,并提供了关键的实现策略,包括元素定位、等待机制、动态内容处理及XP…

    2025年12月14日
    000
  • 怎样用Python操作JSON文件?读写性能优化方案

    python操作json文件的核心是使用内置json模块进行序列化与反序列化,读写性能受文件大小和应用场景影响。1. 小文件处理通常无需优化,直接使用json.load()和json.dump()即可;2. 大文件需采用流式解析库如ijson,按需读取以降低内存占用;3. 写入大量数据时避免格式化、…

    2025年12月14日 好文分享
    000
  • Python中如何实现自动化剪辑?MoviePy教程

    moviepy是一款强大的python视频编辑库,适合自动化剪辑任务。1. 安装moviepy只需通过pip命令即可完成;2. 其核心概念是clip对象,涵盖视频、音频、图像和文本;3. 使用subclip()方法可实现视频剪切;4. 通过concatenate_videoclips()函数能拼接多…

    2025年12月14日 好文分享
    000

发表回复

登录后才能评论
关注微信