Pandas中基于多列生成唯一复合ID的策略

程序猿 • 2025年12月14日 13:14:50 • 用户投稿 • 阅读 0

本文介绍如何在Pandas DataFrame中，基于现有ID和Name列，为每个ID分组内的不同Name实例生成一个唯一的复合ID。通过结合groupby().transform()和pd.factorize()函数，可以高效地为每个ID下的不同Name生成从1开始的序列号，并与原ID拼接，解决传统方法在大数据集上的效率问题或逻辑错误，确保新ID的全局唯一性和分组内顺序性。

1. 问题描述

在数据处理中，我们经常遇到需要为dataframe中的记录生成唯一标识符的场景。假设我们有一个包含name和id两列的dataframe，其结构如下：

Name ID

A1B2A1C3B2D3E1F2

可以看到，原始的ID列并非在所有上下文中都是唯一的。例如，ID=1对应了Name=’A’和Name=’E’，而ID=3则对应了Name=’C’和Name=’D’。我们的目标是创建一个新的ID_new列，使得在每个原始ID的分组内，每一个不同的Name实例都能获得一个唯一的序列号，并与原始ID拼接，形成类似原始ID_序列号的格式。期望的输出结果如下：

Name ID ID_new

A11_1B22_1A11_1C33_1B22_1D33_2E11_2F22_2

需要注意的是，传统的ngroup()方法在处理大规模数据集（例如超过35,000个ID）时可能效率不高，而cumcount()虽然能生成序列号，但它会为每个实例递增，无法实现对相同Name在同一ID分组内保持相同序列号的需求。例如，ID=1的第一个A和第二个A都应是1_1，而cumcount()会生成1_1和1_2。

2. 解决方案：结合groupby().transform()与pd.factorize()

为了解决上述问题，我们可以巧妙地利用Pandas的groupby().transform()方法结合pd.factorize()函数。factorize()能够将Series中的唯一值编码成数值，并返回一个整数数组和唯一值的数组。当它应用于groupby().transform()时，我们可以在每个分组内部对指定列的唯一值进行编码，从而生成分组内的唯一序列号。

2.1 示例数据准备

首先，我们创建上述问题的示例DataFrame：

import pandas as pddata = {    'Name': ['A', 'B', 'A', 'C', 'B', 'D', 'E', 'F'],    'ID': [1, 2, 1, 3, 2, 3, 1, 2]}df = pd.DataFrame(data)print("原始DataFrame:")print(df)

输出:

原始DataFrame:  Name  ID0    A   11    B   22    A   13    C   34    B   25    D   36    E   17    F   2

2.2 生成分组内序列号

接下来，我们使用groupby(‘ID’)对DataFrame按ID列进行分组。在每个分组内部，我们对Name列应用一个Lambda函数，该函数利用pd.factorize()来为分组内不同的Name生成唯一的序列号。transform()方法确保了结果Series的索引与原始DataFrame对齐。

# 定义一个Lambda函数，用于factorize并转换为1-based索引f = lambda x: pd.factorize(x)[0] + 1# 对'ID'分组，并在每个分组内对'Name'进行factorize编码# transform确保结果Series与原始DataFrame的行数相同，并正确对齐s = df.groupby('ID')['Name'].transform(f).astype(str)print("n分组内Name的序列号:")print(s)

输出:

分组内Name的序列号:0    11    12    13    14    15    26    27    2Name: Name, dtype: object

解释:

pd.factorize(x)返回一个元组，第一个元素是编码后的整数数组（从0开始），第二个元素是唯一的原始值数组。我们只需要编码后的整数数组，所以使用[0]。+ 1是为了将序列号从0-based转换为1-based，使其更符合人类阅读习惯。astype(str)将序列号转换为字符串，为后续的字符串拼接做准备。

2.3 拼接生成新的复合ID

最后一步是将原始的ID列（转换为字符串）与上一步生成的序列号Series s进行拼接，使用下划线_作为分隔符。

df['ID_new'] = df['ID'].astype(str).str.cat(s, sep='_')print("n最终结果DataFrame:")print(df)

输出:

最终结果DataFrame:  Name  ID ID_new0    A   1    1_11    B   2    2_12    A   1    1_13    C   3    3_14    B   2    2_15    D   3    3_26    E   1    1_27    F   2    2_2

3. 完整代码示例

将上述步骤整合，得到完整的解决方案代码：

import pandas as pd# 示例数据data = {    'Name': ['A', 'B', 'A', 'C', 'B', 'D', 'E', 'F'],    'ID': [1, 2, 1, 3, 2, 3, 1, 2]}df = pd.DataFrame(data)# 1. 定义factorize函数并转换为1-based序列f = lambda x: pd.factorize(x)[0] + 1# 2. 按'ID'分组，对'Name'进行factorize编码，并使用transform对齐结果# 将结果转换为字符串类型s = df.groupby('ID')['Name'].transform(f).astype(str)# 3. 将原始'ID'（转换为字符串）与生成的序列号进行拼接df['ID_new'] = df['ID'].astype(str).str.cat(s, sep='_')print("生成唯一复合ID后的DataFrame:")print(df)

4. 关键函数解析

pandas.factorize(values):功能：将一个Series或数组中的唯一值编码为数值类型。返回：一个元组(codes, uniques)。codes是一个整数数组，表示每个原始值对应的编码；uniques是一个数组，包含所有唯一的原始值。在本例中，pd.factorize(x)[0]获取了编码后的整数数组，这些整数从0开始，为分组内的每个唯一Name分配一个唯一的数字。GroupBy.transform(func):功能：对分组对象应用一个函数，并返回一个与原始DataFrame（或Series）具有相同索引的Series或DataFrame。优点：它将分组操作的结果“广播”回原始DataFrame的结构，确保了结果与原始数据行的对齐，这对于创建新列非常有用。在本例中，transform(f)将factorize操作应用到每个ID分组的Name列，并将生成的序列号正确地映射回原始的每一行。Series.str.cat(others, sep=None, na_rep=None):功能：将Series中的字符串元素与其他字符串、Series或列表中的字符串进行拼接。参数：sep指定拼接时的分隔符。在本例中，df[‘ID’].astype(str).str.cat(s, sep=’_’)将ID列的字符串表示和序列号Series s的字符串表示通过_连接起来。

5. 注意事项与总结

数据类型转换: 在使用str.cat()进行字符串拼接之前，务必确保所有参与拼接的Series都已转换为字符串类型（例如通过astype(str)），否则可能引发类型错误。性能: pd.factorize()是一个高度优化的函数，在处理大量数据时表现出色。结合groupby().transform()，这种方法能够高效地完成分组内的唯一编码任务，即使面对数万甚至数十万条记录也能保持良好的性能。可读性与灵活性: 这种方法代码简洁，逻辑清晰。通过修改f函数，可以灵活调整序列号的起始值或编码逻辑。与cumcount()的区别: cumcount()为每个分组内的每个实例简单地递增计数，而factorize()则关注分组内唯一值的编码。因此，当需要为分组内的相同值分配相同的序列号时，factorize()是更优的选择。

通过上述方法，我们成功地为DataFrame中的记录创建了满足特定需求的唯一复合ID，克服了传统方法在特定场景下的局限性，提供了一个高效且灵活的解决方案。

以上就是Pandas中基于多列生成唯一复合ID的策略的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1373430.html

区别大数据编码

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Kivy按钮事件处理：如何正确识别点击源并实现条件逻辑

上一篇 2025年12月14日 13:14:45

在 Windows 上不使用包管理器安装 Poppler 的详细教程

下一篇 2025年12月14日 13:14:56

用户投稿

composer require-dev和require有什么不同_Composer Require与Require-Dev区别解析

require用于声明项目运行必需的依赖，如框架、数据库组件和第三方SDK，这些包会随项目部署到生产环境；2. require-dev用于声明仅在开发和测试阶段需要的工具，如PHPUnit、PHPStan、Faker等，不会默认部署到生产环境；3. 安装时composer install根据环境决定…

程序猿
2026年5月10日
10000
用户投稿

怎么在PHP代码中实现图片上传功能_PHP图片上传功能实现与安全处理教程

首先创建含enctype的HTML表单，再用PHP接收文件，检查目录、移动临时文件，验证类型与大小，生成唯一文件名，并调整php.ini限制以确保上传成功。如果您尝试在PHP项目中添加图片上传功能，但服务器无法正确接收或保存文件，则可能是由于表单配置、文件处理逻辑或安全限制的问题。以下是实现该功能…

程序猿
2026年5月10日
1000
用户投稿

php常量怎么用_PHP常量（define/const）定义与使用方法

PHP中可通过define函数和const关键字定义常量，用于存储不可变值。define适用于全局作用域，支持动态名称和条件定义，如define(‘SITE_NAME’, ‘MyWebsite’)；const在编译时生效，语法简洁但限制多，只能在类或全…

程序猿
2026年5月10日
0000
用户投稿

PHP动态生成表单输入与POST数据获取实践指南

本教程详细阐述了如何在php中根据动态数据源（如数据库值）生成多个表单输入框，并演示了如何通过post方法准确无误地获取这些动态生成的输入值。文章强调了正确的输入框命名策略，避免了常见的命名误区，并提供了完整的代码示例，确保开发者能够高效处理动态表单数据。动态生成表单输入在Web开发中，我们经常…

程序猿
2026年5月10日
0000
用户投稿

Go语言接口与切片：如何识别和操作[]interface{}

本文将深入探讨Go语言中如何识别和操作`[]interface{}`类型的切片。我们将介绍类型断言（Type Assertion）的关键作用，并通过`switch`语句演示如何安全地检测`[]interface{}`类型，并进而遍历其内部元素。文章旨在提供清晰的示例代码和专业指导，帮助开发者有效地处…

程序猿
2026年5月10日
0000
用户投稿

PHP多维数组到复杂XML结构的SOAP序列化实践

本文旨在解决php多维数组向复杂soap xml结构序列化时遇到的“无法序列化结果”问题。通过深入理解soap xml的结构要求，包括命名空间和类型属性，文章将指导您如何构建符合特定xml schema的php关联数组。我们将利用`spatie/array-to-xml`库，详细演示其安装与使用方法…

程序猿
2026年5月10日
1000
用户投稿

c++中头文件和源文件的区别_c++头文件与源文件作用对比

头文件声明接口，源文件实现逻辑。头文件含类、函数声明及宏定义，通过#include被多文件共享，用include守卫防重；源文件实现具体功能，编译为目标文件后由链接器合并。声明与实现分离提升模块化与编译效率，模板和内联函数因需编译时可见故常置于头文件，命名空间避免符号冲突，整体结构使项目更清晰易维护…

程序猿
2026年5月10日
0000
用户投稿

Go语言连接外部MySQL数据库：DSN配置与常见错误解析

本文详细阐述了go语言使用`go-sql-driver/mysql`驱动连接外部mysql数据库的正确方法。重点介绍了数据源名称（dsn）的规范格式，特别是主机地址部分的配置，以避免常见的“getaddrinfow: the specified class was not found.”等网络解析错…

程序猿
2026年5月10日
0000
用户投稿

Go语言中复制数组的几种方法详解

本文介绍了在 Go 语言中复制数组和切片的几种方法，重点讲解了内置的 `copy` 函数的使用方式，以及在多维切片场景下深拷贝与浅拷贝的区别，并提供了相应的代码示例。通过本文，你将掌握在不同场景下选择合适的复制方法，避免潜在的陷阱。在 Go 语言中，复制数组和切片是一个常见的操作。根据不同的需求，…

程序猿
2026年5月10日
0000
用户投稿

php超过字数怎么解密_用PHP分段处理超字数加密数据并解密教程【技巧】

分段解密超长加密数据需先确定算法限制，再通过OpenSSL扩展支持，编写函数逐段解密并拼接结果。1、明确加密算法与密钥对应的分段大小；2、启用php.ini中openssl扩展并重启服务；3、自定义函数读取私钥、base64解码密文、循环截取块解密；4、确保去除密文换行符并按原加密块大小切分；5、解…

程序猿
2026年5月10日
0000
用户投稿

php代码如何操作JSON数据_php代码解析和生成JSON的方法

答案：PHP中处理JSON需使用json_encode()和json_decode()函数。1、将数组转为JSON字符串时，用json_encode()并检查返回值是否为false；2、解析JSON字符串时，调用json_decode()并设第二参数为true返回数组，false则返回对象；3、处理…

程序猿
2026年5月10日
0000
用户投稿

PHP代码注入检测日志分析_PHP代码注入日志检测方法详解

答案：日志分析是发现PHP代码注入的关键手段，主要通过Web服务器访问日志、PHP错误日志、PHP-FPM日志及应用自定义日志等多源数据，结合grep、ELK、WAF等工具识别含eval()、system()、Base64编码、目录遍历等特征的异常请求，并建立基线、设置检测规则与自动化告警，配合事件…

程序猿
2026年5月10日
0000
用户投稿

c++中sizeof运算符的用法和常见陷阱 _c++ sizeof使用技巧及陷阱解析

sizeof运算符在编译时计算类型或对象的字节大小，返回size_t类型，常用于获取数据大小、数组元素个数及内存操作；但存在数组传参退化为指针导致失效、对指针无法获知动态内存大小、表达式不求值、结构体因对齐产生填充等常见陷阱；需结合模板、显式传参、对齐控制等方式规避问题，提升代码可移植性和安全性。 …

程序猿
2026年5月10日
0000
用户投稿

C#如何进行网络编程？Socket与TCP/IP通信编程实例详解

C#通过Socket类实现TCP通信，首先服务器绑定IP和端口并监听，客户端发起连接，双方通过Send/Receive收发数据，最后关闭连接。 C# 进行网络编程主要依赖于 System.Net 和 System.Net.Sockets 命名空间，其中最核心的是使用 Socket 类实现基于 TCP…

程序猿
2026年5月10日
0000
用户投稿

C++怎么使用C++17的并行算法库_C++ std::execution与多核性能优化

c++kquote>C++17通过std::execution策略引入并行算法支持，需编译器（如GCC 8+）和线程库（如TBB）配合；提供seq、par、par_unseq三种策略控制执行模式；可用于sort、for_each等算法提升大数据性能，但需避免数据竞争，推荐使用reduce等安全…

程序猿
2026年5月10日
0000
用户投稿

如何测试html5编码_测试HTML5页面编码兼容性方法【编码测试】

HTML5页面编码兼容性测试需五步：一查meta charset是否正确且前置；二验HTTP响应头Content-Type charset是否为utf-8；三用file或chardet工具探测实际编码；四跨浏览器测试URL参数中中文、Emoji解析；五通过W3C验证服务检查编码声明与字节一致性。如…

程序猿
2026年5月10日
1000
用户投稿

解决PHP foreach循环中变量“继承”问题：理解与避免意外数据泄露

本文探讨PHP foreach循环中一个常见的陷阱：当循环内部的数组或变量未被显式初始化时，其值可能会“继承”自上一次循环迭代，导致意外的数据泄露和逻辑错误。文章将深入分析这一现象的根源，并通过示例代码展示如何通过在每次迭代开始时正确初始化变量来解决此问题，确保代码行为的预期一致性。引言：fore…

程序猿
2026年5月10日
1000
用户投稿

Golang如何提升TCP长连接处理效率_Golang TCP长连接处理性能优化实践详解

答案：通过非阻塞I/O、单Goroutine双工模型、sync.Pool对象复用、TCP_NODELAY优化及高效心跳管理，结合系统调优，可显著提升Golang百万级TCP长连接处理效率。在高并发网络服务场景中，TCP长连接的处理效率直接影响系统的吞吐能力和资源消耗。Golang凭借其轻量级Gor…

程序猿
2026年5月10日
0000
用户投稿

Pandas：基于条件和 Groupby 替换列中的特定字符

本文介绍了如何使用 Pandas 库，结合 groupby 函数和字符串操作，根据特定条件替换 DataFrame 列中的字符。通过累积计数和字典映射，能够灵活地修改列中的特定部分，并根据替换值调整相关文本，实现数据清洗和转换的目的。在数据分析和处理中，经常需要根据特定条件修改 DataFrame…

程序猿
2026年5月10日
0000
用户投稿

Windows用Prettier一键格式化乱码HTML代码

首先确保HTML文件保存为UTF-8编码，使用文本编辑器另存为UTF-8格式；其次在命令行执行chcp 65001切换至UTF-8代码页后再运行Prettier；接着在VS Code中设置files.encoding为utf8并启用files.autoGuessEncoding；最后可通过Node.…

程序猿
2026年5月10日
0000