Pandas DataFrame行级数据对比与条件赋值教程

程序猿 • 2025年11月11日 05:57:07 • 后端开发 • 阅读 0

本教程详细介绍了如何使用Pandas和NumPy高效地比较两个DataFrame。我们将学习如何判断DataFrame A中的每一行，其各列值是否都能在DataFrame B的对应列中找到，并据此为DataFrame A添加一个新列，根据匹配结果赋值为“Open”或“New”。

1. 引言

在数据分析和处理过程中，我们经常需要对比两个数据集，并根据对比结果更新或生成新的数据。pandas库提供了强大的工具来处理这类任务。本文将聚焦于一个具体场景：比较两个dataframe，判断第一个dataframe中的行数据是否在第二个dataframe中“存在”（具体定义为：该行的每个元素是否在其对应列中存在于第二个dataframe），并根据此结果为第一个dataframe添加一个新列进行标记。

2. 问题描述与示例数据

假设我们有两个DataFrame，df1 和 df2。我们的目标是为 df1 添加一个名为 new_col 的新列。如果 df1 中的某一行，其所有列的值都能在 df2 的对应列中找到，则 new_col 的值为 “Open”；否则，为 “New”。

为了演示，我们创建以下示例数据：

import pandas as pdimport numpy as np# DataFrame A (df1)data1 = {    'A': [1, 2, 3, 4, 5],    'B': ['apple', 'banana', 'orange', 'apple', 'grape'],    'C': [10, 20, 30, 40, 50]}df1 = pd.DataFrame(data1)print("原始 DataFrame df1:")print(df1)# DataFrame B (df2)data2 = {    'A': [1, 2, 6],    'B': ['apple', 'banana', 'kiwi'],    'C': [10, 20, 60]}df2 = pd.DataFrame(data2)print("nDataFrame df2:")print(df2)

根据上述规则，期望的 df1 结果应为：

   A       B   C new_col0  1   apple  10    Open1  2  banana  20    Open2  3  orange  30     New3  4   apple  40     New4  5   grape  50     New

3. 解决方案：使用 isin() 和 all(axis=1)

Pandas的 isin() 方法与NumPy的 where() 函数结合使用，能够高效地解决这个问题。

3.1 核心思路

元素级存在性检查 (isin(other_dataframe)): df1.isin(df2) 会生成一个与 df1 形状相同的布尔型DataFrame。对于 df1 中的每个元素 df1.at[i, col_name]，它会检查该元素的值是否存在于 df2 的 对应列 df2[col_name] 中。如果存在，则结果DataFrame中对应位置为 True，否则为 False。行级所有元素匹配 (all(axis=1)): 在得到布尔型DataFrame后，我们使用 .all(axis=1) 方法。这会检查布尔型DataFrame的每一行，如果该行中的所有元素都是 True，则结果为 True，表示 df1 的该行所有值都在 df2 的对应列中找到了。条件赋值 (np.where()): 最后，NumPy的 np.where(condition, value_if_true, value_if_false) 函数根据上一步生成的布尔系列，为 df1 的新列 new_col 赋值。

3.2 代码实现

# 应用解决方案df1['new_col'] = np.where(df1.isin(df2).all(axis=1), 'Open', 'New')print("n更新后的 DataFrame df1:")print(df1)

3.3 结果解释

让我们逐步分析 df1.isin(df2).all(axis=1) 的执行过程：

标书对比王

标书对比王是一款标书查重工具，支持多份投标文件两两相互比对，重复内容高亮标记，可快速定位重复内容原文所在位置，并可导出比对报告。

58 查看详情

df1.isin(df2):

对于 df1 的第一行 (1, ‘apple’, 10)：1 是否在 df2[‘A’] ([1, 2, 6]) 中？是 (True)。’apple’ 是否在 df2[‘B’] ([‘apple’, ‘banana’, ‘kiwi’]) 中？是 (True)。10 是否在 df2[‘C’] ([10, 20, 60]) 中？是 (True)。因此，第一行对应的布尔结果为 [True, True, True]。对于 df1 的第三行 (3, ‘orange’, 30)：3 是否在 df2[‘A’] 中？否 (False)。’orange’ 是否在 df2[‘B’] 中？否 (False)。30 是否在 df2[‘C’] 中？否 (False)。因此，第三行对应的布尔结果为 [False, False, False]。df1.isin(df2) 会生成一个布尔型DataFrame，例如：

     A      B      C0   True   True   True1   True   True   True2  False  False  False3  False   True  False4  False  False  False

.all(axis=1):

对于布尔型DataFrame的每一行，检查所有值是否都为 True。第一行 [True, True, True] -> True第二行 [True, True, True] -> True第三行 [False, False, False] -> False第四行 [False, True, False] -> False第五行 [False, False, False] -> False最终得到一个布尔型Series：[True, True, False, False, False]。

np.where(condition, ‘Open’, ‘New’):

根据上述布尔型Series，将 df1[‘new_col’] 赋值。True 对应 Open，False 对应 New。因此，new_col 的最终结果为 [‘Open’, ‘Open’, ‘New’, ‘New’, ‘New’]，这与我们的预期完全一致。

4. 注意事项与扩展

列名匹配: isin(other_dataframe) 方法要求两个DataFrame的列名必须匹配。它会根据列名进行元素级比较。如果 df1 中存在 df2 中没有的列，或者反之，这些不匹配的列在 isin 结果中将全部为 False。性能: 对于大型DataFrame，isin() 方法通常比循环或合并操作更高效，因为它在底层使用了优化的C/Cython实现。严格行匹配与当前方法的区别:本教程的方法 (df1.isin(df2).all(axis=1)) 检查的是 df1 中某行的 每个元素 是否存在于 df2 的 对应列 中。如果需要进行 严格的行匹配（即 df1 的某一行是否作为一个 完整的行 存在于 df2 中），则需要采取其他策略，例如：将两个DataFrame转换为元组集合进行比较。使用 pd.merge(df1, df2, how=’left’, indicator=True)，然后根据 _merge 列的值判断。将需要比较的列组合成一个唯一标识符（如字符串），然后使用 isin()。请务必根据实际业务需求选择合适的比较逻辑。在本例中，提供的解决方案恰好符合题意和期望输出。部分列比较: 如果只想比较 df1 和 df2 的部分列，可以在 isin() 之前先选择这些列，例如 df1[[‘A’, ‘B’]].isin(df2[[‘A’, ‘B’]]).all(axis=1)。

5. 总结

通过本教程，我们学习了如何利用Pandas的 isin() 方法结合NumPy的 np.where() 来实现DataFrame之间基于元素存在性的条件赋值。这种方法简洁高效，适用于需要根据复杂条件对DataFrame进行标记和分类的场景。理解 isin() 方法在接收DataFrame作为参数时的行为是关键，即它执行的是列与列之间的元素级匹配，再通过 all(axis=1) 聚合为行级判断。

以上就是Pandas DataFrame行级数据对比与条件赋值教程的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/619608.html

app apple 区别工具

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

291.3K 文章

0 评论

1 粉丝

这个人很懒，什么都没有留下～

Python ElementTree生成XML字符串的字节前缀处理指南

上一篇 2025年11月11日 05:45:58

Python多版本环境下的包安装策略与冲突解决

下一篇 2025年11月11日 05:57:22

好文分享

基于会话令牌的前端请求来源验证实践

在公共API端点中验证请求是否来源于自有网页是一个常见的安全挑战。本文介绍一种基于会话令牌的客户端信任验证方法，通过在服务器端生成唯一令牌并存储于用户会话，同时将其嵌入前端表单隐藏域。后端接收请求时，比对提交的令牌与会话中的令牌，从而有效防止外部工具（如cURL、Postman）伪造请求，确保数据仅…

程序猿
2025年12月10日
0000
好文分享

PHP框架如何进行表单验证 PHP框架表单验证的实用技巧教程

php框架的表单验证通过声明式规则极大提升了开发效率与安全性，1. 框架如laravel提供内置验证机制，通过规则数组定义字段约束，自动处理错误反馈；2. 服务器端验证不可或缺，因前端验证可被绕过，后端验证确保数据完整性与应用安全；3. 自定义验证规则可通过闭包、规则类或扩展验证器实现，适应复杂业务…

程序猿
2025年12月10日
0000
好文分享

PHP常用框架如何实现RESTful API接口开发 PHP常用框架API开发的基础教程

使用php框架构建restful api的核心在于利用其mvc架构、路由系统、orm和请求/响应处理机制，提升开发效率与代码安全性；2. laravel等主流框架通过预置组件如路由、中间件、eloquent orm和认证机制（如sanctum），显著简化api开发流程；3. 构建api的步骤包括：项…

程序猿
2025年12月10日
0000
好文分享

使用PHP处理CSV文件：高效移除行末多余逗号的教程

本教程详细介绍了如何利用PHP简洁高效地处理由Laravel-Excel等工具导出的CSV文件，解决因表头或表尾行字段数少于正文行而导致末尾出现多余逗号的问题。核心方法是使用PHP的file()函数读取文件内容，结合rtrim()函数精确移除每行末尾指定字符，最后通过file_put_content…

程序猿
2025年12月10日
0000
好文分享

WordPress用户角色筛选与查询指南

本文详细介绍了在WordPress中根据用户角色进行数据查询的多种方法。涵盖了官方API函数get_users()、强大的WP_User_Query类以及在特定情况下使用直接SQL查询的技巧。教程将通过代码示例，指导开发者高效、安全地获取指定角色的用户信息，并探讨每种方法的适用场景与注意事项。在w…

程序猿
2025年12月10日
0000
好文分享

优化Laravel请求数据访问：解决部分验证与更新失效问题

本教程旨在解决Laravel应用中验证部分生效、数据更新不完整的问题。核心在于纠正对请求参数的访问方式。我们将深入探讨如何正确使用$request->input()方法获取表单字段数据，以及$request->file()处理文件上传，并结合$request->validate()…

程序猿
2025年12月10日
0000
好文分享

PHP/Laravel CSV文件后处理：移除导出文件中的多余尾部逗号

本文旨在解决使用PHP或Laravel导出CSV文件时，因行结构不一致导致表头或表尾出现多余尾部逗号的问题。我们将探讨一种简洁高效的PHP解决方案，利用file()函数读取文件内容，并通过rtrim()函数精确移除每行末尾的指定字符（包括逗号和换行符），最后使用file_put_contents()…

程序猿
2025年12月10日
0000
好文分享

PHP常用框架如何实现后台管理系统的快速开发 PHP常用框架后台开发的实用方法

laravel因其“约定优于配置”的理念、eloquent orm、blade模板引擎和开箱即用的认证系统，成为快速开发后台管理系统的首选；2. symfony以组件化和灵活性见长，适合大型复杂项目；3. codeigniter轻量高性能，学习曲线平缓，适合对框架侵入性敏感的场景；4. yii2凭借…

程序猿
2025年12月10日
0000
好文分享

PHP/Laravel中导出CSV文件后移除拖尾逗号的实用教程

本文针对使用Laravel-Excel等工具导出CSV文件时，因表头或表尾行字段数与主体行不一致导致的拖尾逗号问题，提供了一套基于原生PHP的解决方案。通过读取文件内容、利用rtrim函数高效移除指定字符，并重新写入文件，实现对CSV数据的精确后处理，确保文件格式符合预期，提升数据质量。问题背景与…

程序猿
2025年12月10日
0000
好文分享

PHP函数怎样记录函数的执行日志 PHP函数执行日志记录的实用方法

使用error_log()可快速记录函数调用、参数、结果及异常到服务器日志；2. 自定义日志函数通过file_put_contents()等实现灵活控制日志格式与存储路径；3. 推荐使用monolog等专业库，支持多处理器、格式化、日志级别管理，便于调试、性能分析、审计与监控；选择方案时需注意日志级…

程序猿
2025年12月10日
0000
好文分享

PHP常用框架怎样实现用户登录与会话管理 PHP常用框架身份认证的实用方法

php常用框架如laravel、symfony、yii通过内置认证系统实现安全的用户登录与会话管理，核心机制包括密码哈希存储、会话或令牌管理及权限校验；2. 基于会话的认证依赖服务器端存储和cookie，适合传统web应用，但扩展性差且需共享session，而基于令牌（如jwt）的认证无状态、易扩展…

程序猿
2025年12月10日
0000
好文分享

PHP常用框架怎样实现定时任务与队列处理 PHP常用框架任务调度的基础教程

定时任务通过框架调度器或系统cron实现，将周期性任务集中管理；2. 队列处理将耗时操作异步化，提升响应速度与系统并发能力；3. laravel提供开箱即用的调度器和队列系统，symfony则通过组件化设计实现更高灵活性；4. 调试需依赖日志、手动执行命令、xdebug及队列工具，监控应涵盖进程状态…

程序猿
2025年12月10日
0000
好文分享

PHP函数怎样写一个判断数字奇偶的函数 PHP函数奇偶判断功能的入门编写技巧

php中判断奇偶数除取模运算外，还可使用位运算；1. 使用 % 运算符判断数字对2取模是否为0，为0是偶数，否则是奇数；2. 利用位运算 $number & 1，结果为1是奇数，为0是偶数，性能略优但可读性较差；3. 处理非整数输入时需进行类型检查与转换，如使用 is_numeric() 验…

程序猿
2025年12月10日
0000
好文分享

PHP命令如何使用脚本实现定时任务的触发 PHP命令定时任务触发的教程指南

要让php脚本在特定时间自动运行，最常用的方法是使用操作系统的定时任务工具，如linux下的cron或windows的任务计划程序。1. 在linux中，通过crontab -e编辑定时任务，添加一行配置指定执行时间与命令，例如0 3 * /usr/bin/php /var/www/my_app/s…

程序猿
2025年12月10日
0000
好文分享

PHP如何通过phpinfo()确认内存占用限制配置 PHP限制内存占用的信息查看方法

phpinfo()中memory_limit的local value是当前脚本生效的值，master value是php.ini中的全局默认值；1. local value可能因.htaccess、user.ini或ini_set()被覆盖；2. 查看内存限制还可使用ini_get(‘m…

程序猿
2025年12月10日
0000
好文分享

PHP函数怎样让函数接收多个参数 PHP函数多参数传递的简单教程

php函数接收多个参数最直接的方式是在定义时用逗号分隔列出参数，php按顺序匹配传入值；2. 可通过在参数后加=设置默认值，使参数可选，但带默认值的参数必须放在必传参数之后；3. 使用…操作符可定义可变参数列表，将任意数量的参数收集为数组，且必须位于参数列表末尾；4. php 8支持命名…

程序猿
2025年12月10日
0000
好文分享

PHP命令怎样用-d参数临时开启display_errors PHP命令临时显示错误的设置教程

使用php -d参数可临时开启display_errors以在命令行中即时查看错误信息，而无需修改全局php.ini配置。1. 通过php -d display_errors=on script.php命令可临时显示错误；2. 可结合error_reporting=e_all来显示所有错误级别；3.…

程序猿
2025年12月10日
0000
好文分享

Symfony 如何将任务队列转为数组

将 symfony 消息对象转换为数组的核心方法包括在消息类中实现 toarray() 方法，适用于结构简单、字段明确的场景，可手动映射属性并格式化数据如日期；2. 使用 symfony serializer 组件进行自动序列化，支持通过序列化组（@groups）精细控制输出字段，适用于复杂或嵌套对…

程序猿
2025年12月10日
0000
好文分享

Symfony 如何将WebSocket数据转数组

Symfony 中将 WebSocket 数据转换为数组，核心在于理解 WebSocket 传输的数据格式，并利用 Symfony 提供的工具进行解析和转换。通常，WebSocket 数据以字符串形式传输，你需要根据实际情况确定数据的序列化方式（例如 JSON、XML 或其他自定义格式），然后使用相…

程序猿
2025年12月10日
0000
好文分享

PHP怎样在单个脚本中临时调整内存占用上限 PHP限制内存占用的脚本内设置技巧

最直接的方法是使用ini_set()函数临时调整php内存限制。1. 在脚本开头或需要高内存的代码块前调用ini_set(‘memory_limit’, ‘512m’)可将限制设为512兆字节，单位支持k、m、g，-1表示无限制但不推荐；2. 常见应用…

程序猿
2025年12月10日
0000