高效识别Pandas DataFrame差异并仅保留差异化数据

高效识别pandas dataframe差异并仅保留差异化数据

本文旨在提供一种高效、专业的Pandas DataFrame差异比较方法。通过利用DataFrame.compare()函数,结合索引设置和结果重塑技巧,我们能够精确地识别两个DataFrame之间在行和列上的差异,并最终生成一个仅包含这些差异化数据的简洁视图,从而简化数据审计和变更追踪工作。

引言:识别Pandas DataFrame中的差异

在数据分析和处理的日常工作中,我们经常需要比较两个结构相似的Pandas DataFrame,以找出它们之间的不同之处。例如,比较不同时间点的数据快照,或验证数据处理前后的变化。理想情况下,我们希望得到的输出不仅能指出哪些行存在差异,还能明确显示这些差异具体发生在哪些列上,并且只保留这些差异化的信息,剔除完全相同的部分。

考虑以下两个DataFrame df1 和 df2:

import pandas as pddata1 = {    'pet_name': ['Patrick', 'Patrick', 'Patrick', 'Patrick'],    'exam_day': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04'],    'result_1': [1, 2, 3, 4],    'result_2': [10, 20, 30, 40],    'pre_result_1': [123, 123, 123, 123]}df1 = pd.DataFrame(data1)data2 = {    'pet_name': ['Patrick', 'Patrick', 'Patrick', 'Patrick'],    'exam_day': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04'],    'result_1': [1, 99, 3, 4], # Difference here: df1 has 2, df2 has 99    'result_2': [10, 20, 30, 100], # Another difference for demonstration    'pre_result_1': [123, 123, 123, 123]}df2 = pd.DataFrame(data2)print("df1:")print(df1)print("ndf2:")print(df2)

df1:

  pet_name    exam_day  result_1  result_2  pre_result_10  Patrick  2023-01-01         1        10           1231  Patrick  2023-01-02         2        20           1232  Patrick  2023-01-03         3        30           1233  Patrick  2023-01-04         4        40           123

df2:

  pet_name    exam_day  result_1  result_2  pre_result_10  Patrick  2023-01-01         1        10           1231  Patrick  2023-01-02        99        20           1232  Patrick  2023-01-03         3        30           1233  Patrick  2023-01-04         4       100           123

我们注意到 df1 和 df2 在以下位置存在差异:

pet_name=’Patrick’, exam_day=’2023-01-02′ 行的 result_1 列:df1 为 2,df2 为 99。pet_name=’Patrick’, exam_day=’2023-01-04′ 行的 result_2 列:df1 为 40,df2 为 100。

如果仅仅使用 merge(…, indicator=True, how=”outer”) 并过滤 _merge != “both”,虽然能识别出有差异的行,但会保留所有列,并且对同一差异行会分别显示 left_only 和 right_only 两条记录,无法直接突出差异所在的具体列。我们的目标是获得一个更精炼的视图,仅包含差异行和差异列,同时保留关键的标识列。

核心解决方案:使用DataFrame.compare()

Pandas 1.1.0 版本引入的 DataFrame.compare() 方法是专门为解决这类问题而设计的。它能够进行元素级别的比较,并以一种结构化的方式展示差异。

步骤一:准备数据——设置索引

为了让 compare() 方法能够正确地对齐和比较行,我们需要将DataFrame中的关键标识列(例如 pet_name 和 exam_day)设置为索引。这些列通常被称为“维度”列或“主键”列,它们在比较过程中不应被视为可变的值,而是作为行的唯一标识符。

df1_indexed = df1.set_index(['pet_name', 'exam_day'])df2_indexed = df2.set_index(['pet_name', 'exam_day'])print("df1_indexed (partial view):")print(df1_indexed.head(2))

输出示例:

df1_indexed (partial view):                       result_1  result_2  pre_result_1pet_name exam_day                                      Patrick  2023-01-01         1        10           123         2023-01-02         2        20           123

通过设置索引,compare() 方法将基于这些索引值来匹配行。

步骤二:执行比较——compare(align_axis=0)

接下来,我们使用 compare() 方法对两个已设置索引的DataFrame进行比较。关键参数是 align_axis=0,它指示 compare() 在行级别进行对齐。

diff_df_raw = df1_indexed.compare(df2_indexed, align_axis=0)print("Raw comparison output (diff_df_raw):")print(diff_df_raw)

输出示例:

Raw comparison output (diff_df_raw):                           result_1  result_2pet_name exam_day                            Patrick  2023-01-02 self        2.0       NaN                    other      99.0       NaN         2023-01-04 self        NaN      40.0                    other       NaN     100.0

compare() 方法的输出特点:

行索引: compare() 会在原始索引的基础上增加一个内部级别 (self 和 other),用于区分 df1 (self) 和 df2 (other) 中的值。列过滤: compare() 会自动过滤掉所有值都完全相同的列。在我们的例子中,pre_result_1 列在两个DataFrame中完全相同,因此它没有出现在输出中。NaN 填充: 对于在特定行中没有差异的列,compare() 会用 NaN 填充。例如,在 2023-01-02 的差异行中,result_2 并没有差异,因此显示为 NaN。

步骤三:重塑输出——droplevel()与reset_index()

为了将 compare() 的输出重塑成我们期望的简洁格式(即每行显示一个差异值,且包含原始的关键标识列),我们需要进行额外的后处理。

droplevel(-1): 这一步用于删除行索引中表示 self/other 的最内层级别。这样,对于同一个 (pet_name, exam_day) 组合,来自 self 和 other 的差异值将作为独立的

以上就是高效识别Pandas DataFrame差异并仅保留差异化数据的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1373057.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 12:51:31
下一篇 2025年12月14日 12:51:46

相关推荐

  • Snakemake规则在Slurm模式下Python输出实时显示与最佳实践

    在Snakemake的Slurm模式下,Python脚本的实时输出(如print()语句)可能因标准输出缓冲而延迟显示。本文将探讨导致此问题的原因,提供通过刷新标准输出来即时解决的方法,并重点介绍更深层次的Snakemake规则重构最佳实践,包括细化规则粒度、避免内部循环、优化输入/输出处理以及利用…

    好文分享 2025年12月14日
    000
  • 如何解决 pip 安装库过慢的问题

    更换国内镜像源可显著提升pip安装速度,推荐使用清华、阿里云等镜像,通过临时-i参数或永久配置pip.ini/pip.conf实现,Linux/macOS还可设置别名;同时升级pip并启用缓存机制,必要时配置代理,综合运用使库安装更高效。 使用 pip 安装 Python 库时速度慢,通常是因为默认…

    2025年12月14日
    000
  • 高效对比Pandas DataFrame并提取差异数据

    本文详细介绍了如何利用Pandas库的DataFrame.compare()方法,高效地对比两个结构相似的DataFrame,并精确地提取出所有存在差异的行和列。教程将演示如何通过设置索引、调用compare()函数及后续的数据清洗步骤,最终生成一个仅包含差异数据及关键标识列的DataFrame,从…

    2025年12月14日
    000
  • Python 内存映射文件优化 mmap

    mmap通过将文件映射到内存,避免传统I/O的数据拷贝,适用于大文件或频繁随机访问;使用mmap.mmap创建映射后可像操作字符串一样读写数据,读取时按需加载页减少内存占用,写入时选择ACCESS_WRITE或ACCESS_COPY模式并注意flush和同步问题,适合GB级文件处理但不适用于小文件或…

    2025年12月14日
    000
  • python如何读取一个txt文件_python读写TXT文件的基本操作

    Python读写TXT文件需用open()函数配合with语句确保安全,读取可用read()、readline()或readlines(),写入用write()或writelines(),并指定编码防乱码。 Python读取TXT文件,核心在于使用内置的 open() 函数来打开文件,然后根据需求选…

    2025年12月14日
    000
  • python如何从网页上下载图片_python爬虫下载网页图片实战方法

    答案:用Python下载网页图片需三步:获取网页内容、解析提取图片链接、下载保存。先用requests加headers获取HTML,再用BeautifulSoup解析img标签,处理相对路径,最后通过requests获取二进制数据并保存文件。 用Python从网页上下载图片,说白了,这事儿的核心逻辑…

    2025年12月14日
    000
  • Pandas DataFrame差异提取:仅保留差异行与列的教程

    本教程详细阐述如何在Pandas中比较两个DataFrame,并高效地提取仅包含差异值所在的行和列。我们将利用DataFrame.compare方法,结合索引设置和后处理步骤,精确地识别并展示两个数据集中所有不同之处,同时保留关键的维度列,从而实现数据差异的精准分析与可视化。 1. 引言与问题背景 …

    2025年12月14日
    000
  • Python 向量化计算 vs Python 循环

    向量化计算利用NumPy等库对数组整体操作,比Python循环更快。它通过C/Fortran底层优化、减少解释器开销、利用SIMD指令和连续内存访问提升性能。例如数组相加或sqrt运算,向量化比for循环高效得多。适用于算术、三角函数、比较和聚合操作。复杂逻辑或依赖前值的场景(如斐波那契数列)仍需循…

    2025年12月14日 好文分享
    000
  • Python数据可视化:使用Tkinter绘制逐项着色的时间序列状态图

    本文旨在指导读者如何利用Python的Tkinter库,实现对时间序列数据中每个独立事件状态的精细化可视化。区别于传统绘图库对数据进行聚合统计后展示的方式,本教程侧重于通过自定义图形元素,为每个数据点(如成功或失败的检查)分配特定的颜色,从而直观地展现其状态,提供更细致、更具洞察力的时间序列状态概览…

    2025年12月14日
    000
  • Django 的异常处理体系解析

    Django通过多层次机制处理异常,从Python原生try-except到框架级异常、中间件拦截及自定义错误页面。首先需关闭DEBUG模式,创建404.html和500.html模板,并在urls.py中配置handler404和handler500指向自定义视图函数,以提升用户体验与安全性。中间…

    2025年12月14日
    000
  • Pandas DataFrame 高效比较:仅保留差异行与列的教程

    本教程详细介绍了如何使用Pandas的compare方法高效地比较两个DataFrame,并仅提取出存在差异的行和列,同时保留指定的维度列。通过将维度列设为索引,compare方法能够识别数值变更,并通过后续处理生成一个简洁明了的差异报告,极大地简化了数据对比和变更追踪的过程。 在数据分析和处理中,…

    2025年12月14日
    000
  • python中字符串的encode()和decode()怎么用?

    Python中字符串的encode()和decode()方法用于在文本(str)与二进制数据(bytes)间转换,encode()将字符串按指定编码(如utf-8)转为字节串,decode()将字节串还原为字符串,需确保编解码格式一致,否则会引发UnicodeEncodeError或UnicodeD…

    2025年12月14日
    000
  • Matplotlib与Tkinter:实现精细化状态映射的自定义条形图

    本文探讨了在数据可视化中,如何突破传统Matplotlib堆叠条形图的局限,实现对数据中每个独立状态单元进行颜色映射的自定义图形。针对需要将每个检查结果(如成功或失败)以独立色块形式展示的需求,文章提出并详细阐述了使用Tkinter画布进行精细化绘图的解决方案,包括数据处理、图形元素绘制、布局调整及…

    2025年12月14日
    000
  • python中怎么用numpy进行矩阵运算?

    NumPy的ndarray因内存连续、类型一致、底层C实现及丰富函数库,在性能、功能和生态上全面优于Python嵌套列表,成为科学计算首选。 NumPy是Python进行高效矩阵运算的基石,它通过其核心的 ndarray 对象,为我们提供了处理多维数组和矩阵的强大能力,让原本复杂、耗时的数值计算变得…

    2025年12月14日
    000
  • pip 与 pip3 的区别与使用场景

    pip可能指向Python 2或3,依赖系统配置;pip3始终指向Python 3。在多版本系统中应使用pip3确保包安装到Python 3环境,避免导入错误。通过pip –version可查看其关联的Python版本。推荐始终使用pip3并配合虚拟环境,以保证环境清晰和项目兼容性。 在…

    2025年12月14日
    000
  • Mac 系统如何配置 Python 环境

    答案:通过Homebrew安装Python 3并配置虚拟环境。先安装Homebrew,再用brew install python获取最新版Python,设置别名使python命令指向python3,使用python3 -m venv创建虚拟环境隔离项目依赖,最后安装jupyter等常用工具完成开发环…

    2025年12月14日
    000
  • 使用Python subprocess模块运行带参数和输入重定向的外部命令

    本文详细阐述了如何利用Python的subprocess模块执行外部命令,特别是当命令包含连接字符串和输入重定向(如 挑战分析:Python调用外部命令的常见陷阱 在Python中,subprocess模块是执行外部命令和进程的强大工具。然而,当我们需要执行的命令包含特殊字符或操作符,例如数据库连接…

    2025年12月14日
    000
  • Python 异常处理在爬虫项目中的应用

    爬虫中常见的网络请求异常包括连接错误、超时和HTTP状态码异常,需通过try-except分层捕获并针对性处理。 在爬虫项目中,Python的异常处理机制绝不是可有可无的装饰品,它简直就是保障爬虫生命力与稳定性的核心骨架。没有它,你的爬虫就像在薄冰上跳舞,任何一点风吹草动——网络波动、目标网站结构微…

    2025年12月14日
    000
  • Python 实战:简易 Flask 博客项目

    用Python和Flask搭建简易博客,可直观理解Web开发核心。1. 创建虚拟环境并安装Flask、Flask-SQLAlchemy等库;2. 编写app.py定义应用实例、数据库模型(Post)、表单(PostForm)及路由(首页、文章详情、创建文章);3. 使用Jinja2模板引擎构建bas…

    2025年12月14日
    000
  • Python动态列表初始化中可变对象引用问题解析与规避

    在Python中,使用乘法运算符(*)初始化包含可变对象(如列表、字典)的嵌套列表时,会创建这些可变对象的浅拷贝,导致所有“副本”实际上都指向内存中的同一个对象。这使得修改其中一个元素会意外地影响到所有引用,从而产生非预期结果。本文将深入探讨这一常见陷阱,并提供使用列表推导式、显式循环以及colle…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信