数据帧中高效筛选重复项并保留最新N条记录的教程

程序猿 • 2025年12月14日 10:20:45 • 用户投稿 • 阅读 0

本教程旨在解决数据分析中常见的挑战：如何从Pandas DataFrame中高效地筛选出基于特定列的重复项，并仅保留每组重复项中的最新N条记录。我们将探讨一种简洁且性能优越的方法，即利用groupby().tail()组合操作，并提供详细的代码示例与性能考量，以帮助读者在处理大规模数据集时做出最佳选择。

引言：数据帧重复项处理的挑战

在数据清洗和预处理阶段，处理数据帧中的重复记录是一项常见任务。有时，我们不仅需要识别重复项，还需要根据特定业务逻辑进行筛选，例如，保留每组重复项中的最新或最旧的几条记录。当数据集规模庞大时，选择一个高效的处理方法至关重要，以避免不必要的计算资源消耗和漫长的等待时间。

考虑一个场景，您有一个包含用户活动记录的数据帧，其中可能存在基于用户姓名和性别等信息的多条记录。您的目标是针对每个唯一的姓名-性别组合，仅保留其最新的三条活动记录。

常见但可能效率较低的方法（基于窗口函数）

一种常见的思路是使用窗口函数（在PySpark等分布式计算框架中尤为常见，但在Pandas中也可以通过模拟实现）。其基本步骤包括：

分区 (PartitionBy)：根据重复项的定义列（例如 first_name, last_name, sex）对数据进行分组。排序 (OrderBy)：在每个分区内，根据一个唯一标识符（例如 id 列，代表记录的顺序或时间戳）进行排序，通常是降序以获取最新记录。行号分配 (row_number)：为每个分区内的记录分配一个行号。过滤 (Filter)：筛选出 row_number 小于或等于N的记录。

以下是这种思路的示例代码（模仿Spark的Window函数概念）：

# 假设df是一个Pandas DataFrame，且F是pandas的函数别名# import pandas.api.extensions as F# from pandas.core.window import RollingGroupby, ExpandingGroupby # 实际Pandas中没有直接的Window函数# 这里的代码是用户尝试的Spark风格代码，在Pandas中实现会更复杂，且可能效率不高# window_spec = Window.partitionBy('first_name', 'last_name', 'sex').orderBy(F.desc('id'))# df_with_row_number = df.withColumn('row_number', F.row_number().over(window_spec))# filtered_df = df_with_row_number.filter('row_number <= 3')# result_df = filtered_df.drop('row_number')

尽管这种方法逻辑清晰，但在处理大规模Pandas DataFrame时，手动实现复杂的窗口函数逻辑（如自定义排序和行号分配）可能涉及多次数据遍历和中间DataFrame的创建，从而导致性能开销较大，尤其是在内存使用方面。

Pandas groupby().tail() 的高效解决方案

Pandas库提供了一个更为简洁和高效的方法来解决这个问题：groupby().tail()。这个组合操作允许我们首先根据指定的列对数据帧进行分组，然后从每个组的末尾（或头部）选择指定数量的行。结合预排序，这可以非常高效地实现我们的目标。

示例代码

让我们通过一个具体的例子来演示如何使用 groupby().tail(N) 来筛选并保留每组重复项的最后N条记录。

import pandas as pd# 原始数据帧示例data = {    'id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],    'first_name': ['John', 'John', 'John', 'Mark', 'John', 'Mark', 'John', 'Mark', 'Mark', 'John'],    'last_name': ['Doe', 'Doe', 'Doe', 'Kay', 'Doe', 'Kay', 'Doe', 'Kay', 'Kay', 'Doe'],    'sex': ['Male', 'Male', 'Male', 'Male', 'Male', 'Male', 'Male', 'Male', 'Male', 'Male'],    'country': ['USA', 'Canada', 'Mexico', 'Italy', 'Spain', 'France', 'Peru', 'India', 'Laos', 'Benin']}df = pd.DataFrame(data)print("原始数据帧:")print(df)print("-" * 30)# 步骤1: 确保数据按 'id' 列（或其他代表顺序的列）排序# 这一步至关重要，它定义了“最后N个”的含义。# 如果id越大代表越新，则按id升序排列。df_sorted = df.sort_values(by='id', ascending=True)# 步骤2: 使用 groupby() 和 tail() 保留每组的最后3条记录# 根据 'first_name', 'last_name', 'sex' 进行分组，并从每个组的末尾选择3条记录result_df = df_sorted.groupby(['first_name', 'last_name', 'sex']).tail(3)# 步骤3: 重置索引（可选）# 如果需要一个干净的、从0开始的整数索引，可以执行此步骤。result_df = result_df.reset_index(drop=True)print("n筛选后的数据帧 (保留每组最新3条):")print(result_df)

代码详解

数据准备: 首先，我们创建了一个示例 pd.DataFrame，它模拟了具有重复 first_name, last_name, sex 组合的数据。数据排序 (df.sort_values(by=’id’, ascending=True)): 这是实现“保留最新N条”的关键一步。tail(N) 方法总是从组的末尾选择行。因此，为了确保这些“末尾”的行确实是您想要的“最新”记录，您必须在执行 groupby().tail() 之前，根据一个能够表示记录顺序（例如时间戳、ID号）的列对整个数据帧进行排序。在这里，我们假设 id 值越大代表记录越新，因此按 id 升序排列。分组与截取 (df_sorted.groupby([‘first_name’, ‘last_name’, ‘sex’]).tail(3)):groupby([‘first_name’, ‘last_name’, ‘sex’])：根据 first_name, last_name, sex 这三列的值将数据帧分成多个逻辑组。例如，所有 John Doe Male 的记录将形成一个组。.tail(3)：对于每个分组，此方法会选择该组中最后3行。由于我们之前已经按 id 进行了排序，这确保了选出的3行是该组中 id 值最大的（即最新的）3条记录。重置索引 (result_df.reset_index(drop=True)): groupby().tail() 操作会保留原始索引。如果您希望结果数据帧拥有一个从0开始的连续新索引，可以使用 reset_index(drop=True)。drop=True 参数表示不将旧索引作为新列添加到数据帧中。

输出结果

执行上述代码后，您将得到以下结果：

原始数据帧:   id first_name last_name   sex country0   1       John       Doe  Male     USA1   2       John       Doe  Male  Canada2   3       John       Doe  Male  Mexico3   4       Mark       Kay  Male   Italy4   5       John       Doe  Male   Spain5   6       Mark       Kay  Male  France6   7       John       Doe  Male    Peru7   8       Mark       Kay  Male   India8   9       Mark       Kay  Male    Laos9  10       John       Doe  Male   Benin------------------------------筛选后的数据帧 (保留每组最新3条):   id first_name last_name   sex country0   5       John       Doe  Male   Spain1   6       Mark       Kay  Male  France2   7       John       Doe  Male    Peru3   8       Mark       Kay  Male   India4   9       Mark       Kay  Male    Laos5  10       John       Doe  Male   Benin

性能考量与最佳实践

效率对比: groupby().tail() 方法在Pandas中通常比手动实现复杂的窗口函数（如使用 apply 结合自定义逻辑）更高效。Pandas的 groupby 操作是高度优化的，并且 tail 方法直接作用于分组对象，减少了中间数据结构的创建和内存消耗。排序的重要性: 务必记住，tail(N) 总是选择组的“末尾”N行。如果“最新”或“最旧”有特定定义，您必须在 groupby 之前对数据帧进行适当的排序。要保留最新N条，按时间/ID升序排序，然后使用 tail(N)。要保留最旧N条，按时间/ID降序排序，然后使用 tail(N)，或者更直接地使用 head(N) (在升序排序后)。数据规模: 对于中等规模的数据集（GB级别），Pandas的 groupby().tail() 表现优异。对于超大规模数据集（TB级别或更大），您可能需要考虑使用分布式计算框架，如PySpark，其中窗口函数是其核心功能，并能更好地利用集群资源。处理 NaN 值: groupby 操作默认会忽略分组键中的 NaN 值。如果您的分组列中可能包含 NaN，并且您希望将它们视为一个独立的组或进行特定处理，请在 groupby 之前进行适当的缺失值处理（如填充或删除）。

总结

本教程详细介绍了如何利用Pandas的 groupby().tail() 方法高效地从数据帧中筛选出基于特定列的重复项，并仅保留每组的最新N条记录。通过结合 sort_values 进行预排序，这种方法不仅代码简洁，而且在性能上通常优于手动实现的窗口函数逻辑。理解并正确应用这些Pandas操作，将极大地提升您在数据清洗和预处理任务中的效率。

以上就是数据帧中高效筛选重复项并保留最新N条记录的教程的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1370210.html

ai app red win 排列数据排序

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

列表推导式（List Comprehension）和生成器表达式（Generator Expression）的区别。

上一篇 2025年12月14日 10:20:35

Pandas数据处理：高效筛选重复记录并保留指定数量的最新数据

下一篇 2025年12月14日 10:20:48

Matplotlib 地图中多类型图例的创建与优化

本教程旨在解决matplotlib地图可视化中，如何在一个图例中同时展示颜色块（如区域分类）和自定义标记（如特定兴趣点）的问题。文章详细介绍了当传统`patch`对象无法正确显示标记时，如何利用`matplotlib.lines.line2d`创建标记图例句柄，并将其与颜色块图例句柄合并，从而生成一…

程序猿
2026年5月10日 • 用户投稿
1000
用户投稿

Golang JSON序列化：控制敏感字段暴露的最佳实践

本教程探讨golang中如何高效控制结构体字段在json序列化时的可见性。当需要将包含敏感信息的结构体数组转换为json响应时，通过利用`encoding/json`包提供的结构体标签，特别是`json:”-“`，可以轻松实现对特定字段的忽略，从而避免敏感数据泄露，确保api…

程序猿
2026年5月10日
0000
用户投稿

怎么在PHP代码中实现图片上传功能_PHP图片上传功能实现与安全处理教程

首先创建含enctype的HTML表单，再用PHP接收文件，检查目录、移动临时文件，验证类型与大小，生成唯一文件名，并调整php.ini限制以确保上传成功。如果您尝试在PHP项目中添加图片上传功能，但服务器无法正确接收或保存文件，则可能是由于表单配置、文件处理逻辑或安全限制的问题。以下是实现该功能…

程序猿
2026年5月10日
1000
用户投稿

比特币新手教程比特币交易平台有哪些

比特币是一种去中心化的数字货币，基于区块链技术实现点对点交易，具有匿名性、有限发行和不可篡改等特点；新手可通过交易所购买，P2P交易获得比特币，常用平台包括Binance、OKX和Huobi；交易流程包括注册账户、实名认证、绑定支付方式、充值法币并下单购买，可选择市价单或限价单；比特币存储方式有交易…

程序猿
2026年5月10日
0000
用户投稿

c++中的SFINAE技术是什么_c++模板编程中的SFINAE原理与应用

SFINAE 是“替换失败不是错误”的原则，指模板实例化时若参数替换导致错误，只要存在其他合法候选，编译器不报错而是继续重载决议。它用于条件启用模板、类型检测等场景，如通过 decltype 或 enable_if 控制函数重载，实现类型特征判断。尽管 C++20 引入 Concepts 简化了部分…

程序猿
2026年5月10日
0000
用户投稿

Go语言mgo查询构建：深入理解bson.M与日期范围查询的正确实践

本文旨在解决go语言mgo库中构建复杂查询时，特别是涉及嵌套`bson.m`和日期范围筛选的常见错误。我们将深入剖析`bson.m`的类型特性，解释为何直接索引`interface{}`会导致“invalid operation”错误，并提供一种推荐的、结构清晰的代码重构方案，以确保查询条件能够正确…

程序猿
2026年5月10日
1000
用户投稿

RichHandler与Rich Progress集成：解决显示冲突的教程

在使用rich库的`richhandler`进行日志输出并同时使用`progress`组件时，可能会遇到显示错乱或溢出问题。这通常是由于为`richhandler`和`progress`分别创建了独立的`console`实例导致的。解决方案是确保日志处理器和进度条组件共享同一个`console`实例…

程序猿
2026年5月10日
0000
用户投稿

Golang goroutine与channel调试技巧

使用go run -race检测数据竞争，结合runtime.NumGoroutine监控协程数量，通过pprof分析阻塞调用栈，利用select超时避免永久阻塞，有效排查goroutine泄漏、死锁和数据竞争问题。 Go语言的goroutine和channel是并发编程的核心，但它们也带来了调试上…

程序猿
2026年5月10日
0000
用户投稿

使用 Jupyter Notebook 进行探索性数据分析

Jupyter Notebook通过单元格实现代码与Markdown结合，支持数据导入（pandas）、清洗（fillna）、探索（matplotlib/seaborn可视化）、统计分析（describe/corr）和特征工程，便于记录与分享分析过程。 Jupyter Notebook 是进行探索性…

程序猿
2026年5月10日
0000
《魔兽世界》将于6月11日开启国服回归技术测试

《%ign%ignore_a_1%re_a_1%》官方宣布，将于6月11日开启国服回归技术测试，时间为7天，并称可以在6月内正式开服，玩家们可以访问官网下载战网客户端并预下载“巫妖王之怒”客户端，技术测试详情见下图。 WordAi WordAI是一个AI驱动的内容重写平台 53 查看详情以上就是《…

程序猿
2026年5月10日 • 用户投稿
2000
用户投稿

如何在HTML中插入表单元素_HTML表单控件与输入类型使用指南

HTML表单通过标签构建，包含action和method属性定义数据提交目标与方式，常用input类型如text、password、email等适配不同输入需求，配合label、required、placeholder提升可用性，结合textarea、select、button等控件实现完整交互，是…

程序猿
2026年5月10日
1000
用户投稿

深入理解 Express.js 中 next() 参数的作用与中间件机制

本文深入探讨 express.js 中间件函数中的 `next()` 参数。它负责将控制权传递给请求-响应周期中的下一个中间件或路由处理程序。文章将详细解释 `next()` 的工作原理、中间件的注册与执行顺序，以及不正确使用 `next()` 可能导致请求挂起的风险，并通过代码示例和实际应用场景，…

程序猿
2026年5月10日
0000
用户投稿

创建指定大小并填充特定数据的Golang文件教程

本文将介绍如何使用Golang创建一个指定大小的文件，并用特定数据填充它。我们将使用 `os` 包提供的函数来创建和截断文件，从而实现快速生成大文件的目的。示例代码展示了如何创建一个10MB的文件，并将其填充为全零数据。掌握这些方法，可以方便地在例如日志系统或磁盘队列等场景中，预先创建测试文件或初始…

程序猿
2026年5月10日
0000
用户投稿

Python命令怎样使用profile分析脚本性能 Python命令性能分析的基础教程

使用Python的cProfile模块分析脚本性能最直接的方式是通过命令行执行python -m cProfile your_script.py，它会输出每个函数的调用次数、总耗时、累积耗时等关键指标，帮助定位性能瓶颈；为进一步分析，可将结果保存为文件python -m cProfile -o ou…

程序猿
2026年5月10日
0000
用户投稿

使用 WebCodecs VideoDecoder 实现精确逐帧回退

本文档旨在解决在使用 WebCodecs VideoDecoder 进行视频解码时，实现精确逐帧回退的问题。通过比较帧的时间戳与目标帧的时间戳，可以避免渲染中间帧，从而提高用户体验。本文将提供详细的解决方案和示例代码，帮助开发者实现精确的视频帧控制。在使用 WebCodecs VideoDecod…

程序猿
2026年5月10日
0000
如何插入查询结果数据_SQL插入Select查询结果方法

使用INSERT INTO…SELECT语句可高效插入数据，通过NOT EXISTS、LEFT JOIN、MERGE语句或唯一约束避免重复；表结构不一致时可通过别名、类型转换、默认值或计算字段处理；结合存储过程可提升可维护性，支持参数化与动态SQL。将查询结果数据插入到另一个表中，可以…

程序猿
2026年5月10日 • 用户投稿
0000
用户投稿

Discord.py 交互按钮超时与持久化解决方案

本教程旨在解决Discord.py中交互按钮在一段时间后出现“This Interaction Failed”错误的问题。我们将深入探讨视图（View）的超时机制，并提供通过正确设置timeout参数以及利用bot.add_view()方法实现按钮持久化的具体方案，确保您的机器人交互功能稳定可靠，即…

程序猿
2026年5月10日
0000
用户投稿

Debian Copilot的社区活跃度如何

debian copilot是codeberg社区维护的ai助手，旨在为debian用户提供服务。尽管搜索结果中没有直接提供关于debian copilot社区支持活跃度的具体数据，但我们可以通过debian社区的整体活跃度和特点来推断其活跃性。 Debian社区的一般情况： Debian拥有详尽的…

程序猿
2026年5月10日
0000
用户投稿

JavaScript 动态菜单点击高亮效果实现教程

本教程详细介绍了如何使用 JavaScript 实现动态菜单的点击高亮功能。通过事件委托和状态管理，当用户点击菜单项时，被点击项会高亮显示（绿色），同时其他菜单项恢复默认样式（白色）。这种方法避免了不必要的DOM操作，提高了性能和代码可维护性，确保了无论点击方向如何，功能都能稳定运行。动态菜单高亮…

程序猿
2026年5月10日
2000
用户投稿

c++如何实现UDP通信_c++基于UDP的网络通信示例

UDP通信基于套接字实现，适用于实时性要求高的场景。1. 流程包括创建套接字、绑定地址（接收方）、发送（sendto）与接收（recvfrom）数据、关闭套接字；2. 服务端监听指定端口，接收客户端消息并回传；3. 客户端发送消息至服务端并接收响应；4. 跨平台需处理Winsock初始化与库链接，编…

程序猿
2026年5月10日
1000