利用Pandas高效创建依赖上一个有效值的条件列

程序猿 • 2025年12月14日 07:03:01 • 用户投稿 • 阅读 0

本文详细介绍了如何在Pandas DataFrame中高效地创建新列，使其值根据特定条件和相邻单元格进行填充。核心方法是结合使用Series.where()进行条件性赋值，以及Series.bfill()或Series.ffill()来回填或前向填充缺失值，从而实现复杂的数据依赖逻辑，避免低效的循环操作。

场景描述与挑战

在数据处理中，我们经常需要根据一列的特定条件来创建或修改另一列。更复杂的情况是，当条件不满足时，新列的值需要依赖于其上方或下方的某个有效值。例如，给定一个包含“colonne 1”和“dimension 1”的dataframe，我们的目标是创建一个新列“new”，其规则如下：

如果“Dimension 1”列的值为“Organisation”，则“new”列的对应单元格取“Colonne 1”列的当前值。如果“Dimension 1”列的值不是“Organisation”，则“new”列的对应单元格需要从其下方最近的“Organisation”类型单元格中获取值，并向上填充。

传统的迭代方法（如使用for循环或apply函数）在处理大型DataFrame时效率低下。Pandas提供了更优化的矢量化操作来解决这类问题。

解决方案：结合where()与填充方法

Pandas中的Series.where()方法允许我们根据一个布尔条件选择性地替换Series中的值。当条件为False时，对应位置的值会被替换为NaN（默认），这为后续的填充操作创造了条件。接着，我们可以利用Series.bfill()（backward fill，向后填充）或Series.ffill()（forward fill，向前填充）来处理这些NaN值，实现复杂的依赖填充逻辑。

1. 使用 Series.where() 创建条件性缺失值

首先，我们使用where()方法来初步填充“new”列。如果“Dimension 1”是“Organisation”，则取“Colonne 1”的值；否则，该位置暂时留空（NaN）。

import pandas as pdimport io# 示例数据data = """  Colonne 1   Dimension 10  MTN_LI2      Indicator1  MTN_IRU      Indicator2  MTN_ACE      Indicator3  MTN_IME      Indicator4     RIPP7  Organisation5    CA_SOT     Indicator6    CA_OTI     Indicator7     CNW00  Organisation8     BSNTF  Organisation9     RIPNJ  Organisation"""df = pd.read_csv(io.StringIO(data), sep=r's{2,}', engine='python', skipinitialspace=True)# 步骤1: 使用where()初步创建新列# 如果 df['Dimension 1'] 等于 'Organisation'，则取 df['Colonne 1'] 的值，# 否则，该位置为 NaNdf['new_temp'] = df['Colonne 1'].where(df['Dimension 1'].eq('Organisation'))print("--- 步骤1结果 (初步填充，非Organisation为NaN) ---")print(df)

输出 df[‘new_temp’] 将会是：

--- 步骤1结果 (初步填充，非Organisation为NaN) ---  Colonne 1   Dimension 1 new_temp0  MTN_LI2      Indicator      NaN1  MTN_IRU      Indicator      NaN2  MTN_ACE      Indicator      NaN3  MTN_IME      Indicator      NaN4     RIPP7  Organisation    RIPP75    CA_SOT     Indicator      NaN6    CA_OTI     Indicator      NaN7     CNW00  Organisation    CNW008     BSNTF  Organisation    BSNTF9     RIPNJ  Organisation    RIPNJ

2. 使用 Series.bfill() 向后填充（向下查找，向上填充）

为了满足“如果不是’Organisation’，则取其下方最近的’Organisation’值”的需求，我们可以使用bfill()。bfill()会从Series的末尾开始，用遇到的第一个非NaN值填充其上方的所有NaN。

# 步骤2: 使用 bfill() 填充 NaNdf['new_bfill'] = df['new_temp'].bfill()print("n--- 步骤2结果 (使用 bfill() 填充) ---")print(df[['Colonne 1', 'Dimension 1', 'new_bfill']])

输出结果：

--- 步骤2结果 (使用 bfill() 填充) ---  Colonne 1   Dimension 1 new_bfill0  MTN_LI2      Indicator     RIPP71  MTN_IRU      Indicator     RIPP72  MTN_ACE      Indicator     RIPP73  MTN_IME      Indicator     RIPP74     RIPP7  Organisation     RIPP75    CA_SOT     Indicator     CNW006    CA_OTI     Indicator     CNW007     CNW00  Organisation     CNW008     BSNTF  Organisation     BSNTF9     RIPNJ  Organisation     RIPNJ

这完美地解决了最初的问题描述：“如果Dimension 1不等于Organisation，则该单元格获取其上方（按逻辑，是其下方最近的Organisation值向上填充）的单元格值。”

3. 使用 Series.ffill() 向前填充（向上查找，向下填充）

作为对比，如果需求是“如果不是’Organisation’，则取其上方最近的’Organisation’值”，那么可以使用ffill()。ffill()会从Series的开头开始，用遇到的第一个非NaN值填充其下方的所有NaN。

# 步骤3: 使用 ffill() 填充 NaN (作为对比，解决不同需求)df['new_ffill'] = df['new_temp'].ffill()print("n--- 步骤3结果 (使用 ffill() 填充) ---")print(df[['Colonne 1', 'Dimension 1', 'new_ffill']])

输出结果：

--- 步骤3结果 (使用 ffill() 填充) ---  Colonne 1   Dimension 1 new_ffill0  MTN_LI2      Indicator       NaN1  MTN_IRU      Indicator       NaN2  MTN_ACE      Indicator       NaN3  MTN_IME      Indicator       NaN4     RIPP7  Organisation     RIPP75    CA_SOT     Indicator     RIPP76    CA_OTI     Indicator     RIPP77     CNW00  Organisation     CNW008     BSNTF  Organisation     BSNTF9     RIPNJ  Organisation     RIPNJ

注意，ffill()在遇到第一个Organisation值（RIPP7）之前，无法填充前几个NaN，因为它们上方没有有效值。这说明了ffill()和bfill()在处理起始/结束NaN时的不同行为。

总结与注意事项

高效性： 结合Series.where()和Series.bfill()/Series.ffill()是Pandas中处理这类条件性填充问题的最佳实践。它们是高度优化的矢量化操作，远比基于Python循环的方案快。灵活性： 这种模式非常灵活，可以应用于各种复杂的条件填充场景。where()可以配合任何布尔条件，而bfill()和ffill()则提供了两种基本的填充方向。初始NaN处理：bfill()会填充其上方的NaN，如果Series的开头就是NaN且其下方没有非NaN值，则这些NaN会保留。ffill()会填充其下方的NaN，如果Series的末尾是NaN且其上方没有非NaN值，则这些NaN会保留。链式操作： 在实际应用中，为了代码简洁，通常会将where()和bfill()/ffill()链式调用，例如：df[‘new’] = df[‘Colonne 1’].where(df[‘Dimension 1’].eq(‘Organisation’)).bfill()。

通过掌握where()和填充方法，您可以高效且优雅地解决Pandas中涉及复杂条件和行间依赖的数据转换问题。

以上就是利用Pandas高效创建依赖上一个有效值的条件列的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1367008.html

lsp python

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Python中利用 sys.settrace 精准获取函数调用前一行的代码行号

上一篇 2025年12月14日 07:02:55

Matplotlib中利用单轴实现多类别水平条形图的精细化布局

下一篇 2025年12月14日 07:03:06

用户投稿

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
4000
用户投稿

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
8000
用户投稿

使用 element-ui Table 组件合并单元格时，最后一行高度异常该如何解决？

element-ui table 组件合并单元格导致最后一行高度异常的解决之道在 element-ui 的表格组件中，利用 objectspanmethod 用于合并单元格。但是，在合并过程中，用户遇到了最后一行高度异常的问题，导致其高度远高于其他行。问题分析根据用户提供的代码示例，在合并第 …

程序猿
2025年12月24日
0000
用户投稿

Element-UI Table 合并单元格导致最后一行高度异常如何解决？

element-ui table 合并单元格导致最后一行高度异常的解决方法使用 element-ui 的 table 组件时，对某些列进行合并单元格可能会在最后一行引起异常高度问题。例如，在合并最后一列的情况下，最后一行的文本可能会超出边界。出现这种情况的原因是：在对合并行进行样式设置时，使用…

程序猿
2025年12月24日
2000
用户投稿

Element UI 表格合并单元格最后一行高度异常如何解决？

element ui 表格合并单元格最后一行高度异常问题 element ui 表格使用 rowspan 属性合并单元格时，最后一行的高度可能出现比其他行高的异常情况。原因： element ui 表格合并单元格时，需要通过 objectspanmethod 方法指定合并单元格的起始行和结束行，而…

程序猿
2025年12月24日
0000
用户投稿

Element-UI Table 合并单元格时，最后一行高度异常的原因是什么？

element-ui table 合并单元格时最后一行高度异常在使用 element-ui 中的 table 组件时，若对最后一列进行合并单元格操作，可能会遇到最后一行高度异常的情况，表现为高度比其他行高出许多。出现此异常的原因在于合并单元格的代码配置中起始行数写错。具体来说，在使用 objec…

程序猿
2025年12月24日
8000
用户投稿

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
0000
用户投稿

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
0000
用户投稿

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
0000
用户投稿

⏰ 你的声音很重要 – CSS 调查现已开放！

嘿? 本周五，Sprintfolio 将举办Designer + Dev Mixer。我正计划参加并且对此感到非常兴奋！这将是与设计师和开发人员建立联系、交流见解并促进集体成长的绝佳机会。我强烈推荐加入 – 完全免费！谁有兴趣？ – 注册享受 ? – Ada…

程序猿
2025年12月24日
0000
用户投稿

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
5000
用户投稿

html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

HTML5无法直接导出video标签内容，需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制；FFmpeg.wasm支持MP4等格式及精细编码控制；服务端方案适合高负载场景。如果您希望在网页…

程序猿
2025年12月23日
7000
用户投稿

如何查看编写的html_查看自己编写的HTML文件效果【效果】

要查看HTML文件的浏览器渲染效果，需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。如果您编写了HTML代码，但无法直观看到其在浏览器中的实际渲染效果，则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

程序猿
2025年12月23日
8000
用户投稿

html5怎么打包运行_HT5用Webpack或Gulp打包后浏览器打开运行【打包】

应通过 HTTP 服务运行打包后的 HTML5 页面，而非双击打开：一、Webpack 配 webpack-dev-server 启动本地服务；二、Gulp 配 BrowserSync 提供实时重载；三、用 Python/Node.js 轻量 HTTP 工具托管 dist 目录；四、仅当必须双击运行…

程序猿
2025年12月23日
0000
用户投稿

html5文件运行不出来怎么回事_析html5文件运行失败原因【解析】

首先检查文件扩展名和编码格式，确保为.html且使用UTF-8编码；接着验证HTML5结构完整性，包含及正确闭合的标签；然后排查外部资源路径是否正确，利用开发者工具查看404错误；排除浏览器兼容性问题，优先在现代浏览器中测试并避免未广泛支持的API；检查JavaScript语法错误与执行顺序，确保脚…

程序猿
2025年12月23日
1000
用户投稿

html5怎么插入文档_HT5用object或iframe嵌入PDF/Word文档显示【插入】

可在HTML5中用iframe或object标签嵌入PDF，需设宽高及可访问路径；Word文档需借OneDrive等第三方服务代理渲染；须处理跨域限制并提供下载降级方案。如果您希望在HTML5页面中嵌入PDF或Word文档并直接显示，可以使用或标签实现。以下是几种可行的嵌入方法：一、使用ifra…

程序猿
2025年12月23日
8000
用户投稿

html表格标题如何写_编写HTML表格标题的正确标签【正确】

HTML表格标题必须使用语义化的标签，置于内且在等元素之前；禁用–等非语义标签替代；可通过CSS的caption-side和text-align调整位置与对齐。如果您在编写HTML表格时发现标题显示不正确或未被识别，则可能是由于使用了错误的标签或未遵循标准语义结构。以下是编写HTML表格标题的正确…

程序猿
2025年12月23日
0000
用户投稿

如何运行html代码_html代码运行方法【步骤】

HTML代码需保存为.html文件并用浏览器打开才能正确显示；若含AJAX或外部资源则需本地服务器；临时测试可用开发者工具；在线编辑器支持即时预览。如果您编写了一段HTML代码，但无法在浏览器中正确显示效果，则可能是由于文件未以正确的格式保存或未通过浏览器打开。以下是运行HTML代码的具体步骤： …

程序猿
2025年12月23日
0000
用户投稿

safari怎么打开html5_Safari浏览器直接输入html5链接自动渲染打开【打开】

Safari中正确渲染HTML5内容需采用file://协议、禁用本地限制、启用HTTP服务器或更新版本并开启实验性功能。具体包括：一、用file:///绝对路径打开本地HTML文件；二、勾选高级设置中的“显示开发菜单”并禁用本地文件限制；三、用Python启动本地HTTP服务，通过http://l…

程序猿
2025年12月23日
3000
用户投稿

html5表格怎么建立_HT5用table加tr/td/th标签建立行列数据表格【建立】

HTML5中构建表格最基础方式是使用table、tr、td、th标签；需添加caption语义化标题，并推荐用thead/tbody/tfoot划分逻辑区域，配合colspan/rowspan实现合并，再通过CSS设置边框与样式。如果您需要在网页中展示结构化的行列数据，HTML5 中最基础且常用的…

程序猿
2025年12月23日
5000