使用 Pandas DataFrame 根据条件迭代更新列值

程序猿 • 2026年5月10日 10:48:08 • 用户投稿 • 阅读 0

本文将介绍一种利用 Pandas DataFrame 根据条件更新列值的高效方法，核心思想是通过重塑数据、分组操作以及前向和后向填充，避免了低效的逐行迭代。

问题描述

假设我们有一个 DataFrame，记录了针对特定 Issue ID 在不同日期所做的更改。DataFrame 中包含以下列：Issue_Id、Due_Date、status、estimation_hour、changed_date、changed_parameter、old_value 和 new_value。我们的目标是基于这些数据，为每个 Issue ID 在每次更改日期创建一个快照。这意味着我们需要根据 changed_date，将 new_value 应用于对应的 changed_parameter，从而更新 DataFrame 中其他行的值。

解决方案

直接迭代 DataFrame 的行并更新值效率较低，尤其是当数据量很大时。一种更有效的方法是使用 Pandas 的 pivot_table 函数来重塑数据，然后使用 groupby 函数按 Issue_Id 进行分组，最后使用 ffill (forward fill) 和 bfill (backward fill) 函数来更新值。

以下是具体的实现步骤：

定义更新函数：

import pandas as pddef update_values(df):    return df['new_value'].ffill().fillna(df['old_value'].bfill())

这个函数使用 ffill() 将 new_value 列中的缺失值用前面的有效值填充，然后使用 fillna(df[‘old_value’].bfill()) 将剩余的缺失值用 old_value 列的后向填充值填充。这确保了即使某个参数在特定日期没有更改，也能使用最近的值。

重塑数据：

upd_values = (df.pivot_table(index=df.index, columns='changed_parameter',                             values=['old_value', 'new_value'], aggfunc='first')                .groupby(df['Issue_Id']).apply(update_values)                .droplevel('Issue_Id').fillna(df))

pivot_table 函数将 changed_parameter 列转换为新的列，并将 old_value 和 new_value 作为这些列的值。aggfunc=’first’ 确保对于每个 changed_parameter，只保留第一个值。然后，我们使用 groupby(df[‘Issue_Id’]).apply(update_values) 按 Issue_Id 对数据进行分组，并将 update_values 函数应用于每个组。droplevel(‘Issue_Id’) 移除多余的索引层级。最后，使用 fillna(df) 来填充任何剩余的缺失值，确保所有原始数据都被保留。

更新 DataFrame：

df[upd_values.columns] = upd_values

这行代码将更新后的值赋回原始 DataFrame。

完整代码示例

import pandas as pd# 示例数据data = {'Issue_Id': [101, 101, 101, 101, 101, 101, 101, 102, 102, 102, 102, 102],        'Due_Date': ['1/31/2023', '1/31/2023', '1/31/2023', '1/31/2023', '1/31/2023', '1/31/2023', '1/31/2023', '2/28/2023', '2/28/2023', '2/28/2023', '2/28/2023', '2/28/2023'],        'status': ['closed', 'closed', 'closed', 'closed', 'closed', 'closed', 'closed', 'closed', 'closed', 'closed', 'closed', 'closed'],        'estimation_hour': [40, 40, 40, 40, 40, 40, 40, 50, 50, 50, 50, 50],        'changed_date': ['1/10/2023', '1/15/2023', '1/16/2023', '1/16/2023', '1/20/2023', '1/25/2023', '1/30/2023', '1/10/2023', '1/15/2023', '1/20/2023', '1/25/2023', '1/30/2023'],        'changed_parameter': ['status', 'estimation_hour', 'estimation_hour', 'Due_Date', 'status', 'estimation_hour', 'status', 'status', 'estimation_hour', 'status', 'estimation_hour', 'status'],        'old_value': ['Defined', '0', '20', '1/20/2023', 'Accepted', '30', 'InProgress', 'Defined', '0', 'Accepted', '30', 'InProgress'],        'new_value': ['Accepted', '20', '30', '1/31/2023', 'InProgress', '40', 'Closed', 'Accepted', '30', 'InProgress', '50', 'Closed']}df = pd.DataFrame(data)def update_values(df):    return df['new_value'].ffill().fillna(df['old_value'].bfill())upd_values = (df.pivot_table(index=df.index, columns='changed_parameter',                             values=['old_value', 'new_value'], aggfunc='first')                .groupby(df['Issue_Id']).apply(update_values)                .droplevel('Issue_Id').fillna(df))df[upd_values.columns] = upd_valuesprint(df)

注意事项

确保 DataFrame 按照 changed_date 排序，以保证 ffill 和 bfill 的正确性。此方法假设 changed_parameter 列中的值是有限的，并且可以作为列名使用。如果数据量非常大，可以考虑使用更高效的数据结构或分布式计算框架。

总结

通过使用 Pandas 的 pivot_table、groupby、ffill 和 bfill 函数，我们可以高效地根据条件更新 DataFrame 中的列值，避免了低效的逐行迭代。这种方法可以显著提高处理大型数据集的性能。

以上就是使用 Pandas DataFrame 根据条件迭代更新列值的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1370416.html

app

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

使用Jinja2与Python动态加载并显示多张图片到HTML

上一篇 2026年5月10日 10:48:06

掌握CSS按钮悬停动画：使用Transition属性实现流畅交互

下一篇 2026年5月10日 10:48:17

用户投稿

如何在Golang中配置Go Module路径

正确配置Go Module的模块路径需在项目根目录执行go mod init 模块路径，生成go.mod文件定义模块导入路径和依赖，如module github.com/john/myweb；模块路径决定包的导入方式，如import “github.com/john/myweb/util…

程序猿
2026年5月10日
0000
用户投稿

html5使用drag和drop制作文件上传区 html5使用可视化上传的界面设计

利用HTML5拖拽API实现文件上传，通过DataTransfer获取文件，FileReader读取预览，结合美化样式和交互反馈，提升用户体验。用 HTML5 的 Drag 和 Drop 实现文件上传区，结合可视化界面设计，可以提升用户体验。核心是利用 DataTransfer 接口获取拖拽的文件…

程序猿
2026年5月10日
0000
用户投稿

HTML滑块（Slider）无法正常工作问题排查与解决方案

本文旨在帮助开发者排查和解决HTML滑块（）无法正常工作的问题。通过分析常见原因，例如JavaScript代码错误、CSS样式冲突以及HTML结构问题，提供详细的排查步骤和解决方案，并附带示例代码，帮助读者快速定位并修复问题，确保滑块功能正常运行。 HTML滑块（）是一个常用的交互式元素，允许用户通…

程序猿
2026年5月10日
0000
用户投稿

Express.js 应用中跨模块共享与修改全局数组的教程

在Express.js应用中，当需要在主应用文件与独立的路由模块之间共享并修改一个全局数组时，`app.locals`提供了一种简洁有效的解决方案。本文将详细介绍如何利用`app.locals`在`index.js`中定义一个数组，并在路由处理函数（如`module.js`）中安全地访问和更新该数组…

程序猿
2026年5月10日
1000
用户投稿

Pandas DataFrame中基于条件更新列值：原理与实践

本文旨在解决Pandas DataFrame中根据匹配条件更新子集行值时常见的陷阱。许多用户尝试通过链式索引操作（如set_index().loc[…]）进行更新，但此方法通常因操作的是DataFrame的副本而非视图而失败。我们将深入探讨这一失败原因，并提供两种高效且可靠的解决方案：一…

程序猿
2026年5月10日
0000
用户投稿

Golang Composite组合模式树形结构实现实践

组合模式通过统一接口实现树形结构管理，适用于文件系统等场景。Go中用接口定义组件，结构体实现叶节点与复合节点，支持透明、递归操作，如目录与文件的统一处理。在Go语言中，组合模式（Composite Pattern）是一种结构型设计模式，适用于构建树形结构的场景，比如文件系统、组织架构、菜单系统等。…

程序猿
2026年5月10日
0000
用户投稿

Go 语言中的泛型：概念、影响与演进

泛型是一种允许在编译时使用类型参数编写代码的编程范式，它使得函数或数据结构能够处理多种数据类型，从而实现代码复用和类型安全。在静态类型语言中，泛型的缺失曾导致大量重复代码，开发者不得不为不同类型的数据集合编写功能相同的函数。go 1.18版本引入泛型后，有效解决了这一痛点，显著提升了代码的灵活性和可…

程序猿
2026年5月10日
0000
用户投稿

HTML地理位置怎么优化_本地SEO代码优化技巧

HTML地理位置优化需使用Schema.org标记并确保信息一致，结合关键词、地图嵌入和本地内容提升本地搜索排名。 HTML地理位置优化，简单来说，就是让你的网站在本地搜索结果中更容易被找到。核心在于告诉搜索引擎你的网站与特定地理位置相关，并提升用户体验。解决方案使用Schema.org标记： …

程序猿
2026年5月10日
2000
用户投稿

阻止搜索引擎爬虫触发网站非预期操作的指南

本教程旨在解决搜索引擎爬虫（如bingbot）因访问网站特定页面而意外触发邮件发送等非预期操作的问题。核心解决方案是遵循http协议规范，将执行状态变更操作的请求从get方法改为post方法，并辅以必要的认证机制，以确保网站功能的正确性和安全性，有效防止爬虫对网站造成干扰。理解搜索引擎爬虫与HTT…

程序猿
2026年5月10日
0000
用户投稿

HTX火币交易所app下载-HTX火币交易所最新版本下载v10.44.1

火币官方合作伙伴认证 · 一站式安全交易体验官网直达：安卓安装包下载： HTX（原火币）交易所App的下载需要通过其官方网站进行，以确保安全和获取最新版本。目前市场上存在大量仿冒应用，直接在第三方平台搜索容易下载到虚假或带有风险的程序。如何安全下载HTX App 要获取HTX官方App，请打开…

程序猿
2026年5月10日
0000
用户投稿

Python 3中enum包安装失败解析：标准库枚举模块的使用指南

本文针对在python 3.x环境下安装`enum`包时遇到的`attributeerror: module ‘enum’ has no attribute ‘__version__’`错误提供解决方案。核心在于，`enum`模块已是python 3标…

程序猿
2026年5月10日
0000
用户投稿

为什么合约价格和现货不一样？解析基差产生的原因与套利机会

基差体现期货与现货价格差异，由持有成本、供需变化、市场预期及季节性因素共同驱动；当基差偏离常态，交易者可通过期现正向套利、反向套利及跨期套利捕捉定价错误带来的盈利机会。 binance币安交易所注册入口： APP下载：欧易OKX交易所注册入口： APP下载：火币交易所：注册入口： APP下…

程序猿
2026年5月10日
1000
用户投稿

JavaScript中Base64图片到ImageData数组的转换指南

本文详细介绍了在javascript中如何将base64编码的图片字符串转换为可用于像素级操作的imagedata数组。通过利用html canvas元素和image对象，教程将逐步演示从加载base64图片、绘制到canvas，最终提取imagedata的过程，并提供完整的代码示例及注意事项，帮助…

程序猿
2026年5月10日
0000
用户投稿

如何利用JavaScript的URL Pattern API匹配路由，以及它在客户端路由解析中的优势和应用？

URL Pattern API提供了一种浏览器原生、声明式且语义化的URL匹配与解析方案，相比正则表达式具有更高的可读性、更安全的参数提取和更好的性能。它通过URLPattern构造函数定义协议、主机名、路径等部分的匹配模式，支持动态参数（:param）、可选段（?）、通配符（*）和重复段（+），并…

程序猿
2026年5月10日
0000
用户投稿

WPF中的用户控件如何创建与使用？

WPF用户控件是UI与逻辑的封装单元，通过继承UserControl将常用界面元素组合复用；创建时添加.xaml和.xaml.cs文件，在XAML中定义界面布局，后台代码中定义依赖属性（如ButtonText、ButtonCommand）以支持数据绑定和命令传递；使用时在父窗体引入命名空间后直接实例…

程序猿
2026年5月10日
0000
用户投稿

在Laravel中高效合并PDF文件：基于libmergepdf的专业指南

本教程详细介绍了如何在PHP及Laravel应用中合并PDF文件。我们将利用强大的libmergepdf库，实现将动态生成PDF与用户上传PDF合并的需求。文章将涵盖libmergepdf的安装、基本使用，并提供将其封装为Laravel服务，以便在控制器中便捷调用的专业指导，确保合并过程高效且结构清…

程序猿
2026年5月10日
0000
用户投稿

在数据可视化中，如何利用 D3.js 进行复杂的数据绑定和 DOM 操作？

D3.js的核心优势在于数据绑定与DOM操作的精细控制，通过enter、update、exit模式实现数据驱动的动态更新；利用data join机制将数据与元素关联，支持嵌套绑定、分组操作及过渡动画，并通过key函数和选择集复用提升性能，从而构建高效响应式可视化。在数据可视化中，D3.js 的核心…

程序猿
2026年5月10日
0000
用户投稿

C#怎么获取当前程序路径 C#获取各种路径的方法汇总

程序路径应使用AppContext.BaseDirectory（.NET Core/.NET 5+）或Path.GetDirectoryName(Application.ExecutablePath)（WinForms），而非Environment.CurrentDirectory；配置文件建议置于…

程序猿
2026年5月10日
1000
用户投稿

如何在HTML中插入社交分享按钮_HTML第三方分享SDK集成方法

答案：集成第三方SDK可实现网页社交分享。选用微信JS-SDK、微博Web SDK等或聚合工具，引入脚本并初始化，配置权限与分享内容，自定义按钮样式及事件，注意HTTPS、签名缓存与移动端适配，确保分享功能稳定流畅。在网页中添加社交分享功能，能有效提升内容传播性。通过集成第三方社交平台的分享SDK…

程序猿
2026年5月10日
2000
用户投稿

解决 Puppeteer 在 Heroku 上运行中断：内存泄漏与浏览器资源管理

本教程探讨 Puppeteer 在 Heroku 等云平台运行时，在执行少量任务后停止并抛出超时错误的问题。核心原因在于未正确关闭 Puppeteer 浏览器实例导致的内存泄漏。文章将详细解释这一现象，并提供通过在每次数据抓取后显式调用 browser.close() 来有效管理资源、防止内存耗尽的…

程序猿
2026年5月10日
0000

发表回复

登录后才能评论