PySpark DataFrame中基于前一个非空值顺序填充缺失数据

程序猿 • 2025年12月14日 10:28:41 • 好文分享 • 阅读 0

本教程详细介绍了如何在PySpark DataFrame中，利用窗口函数高效地实现基于前一个非空值的顺序填充（Forward Fill）缺失数据。针对具有递增 row_id 和稀疏 group_id 的场景，我们将演示如何通过 Window.orderBy 结合 F.last(ignorenulls=True) 来处理大规模数据集中的缺失值，确保数据完整性和逻辑一致性。

场景描述与问题分析

在数据处理过程中，我们经常会遇到需要根据序列中前一个有效值来填充后续缺失值的情况，这被称为“顺序填充”或“前向填充”（forward fill）。例如，在一个pyspark dataframe中，如果存在一个 row_id 字段表示数据的顺序，以及一个 group_id 字段，其中 group_id 仅在每个组的起始行有值，而后续行则为 null，直到下一个 group_id 出现。我们的目标是将这些 null 值填充为其所属组的第一个有效 group_id。

考虑以下数据结构：

row_id, group_id1,      12,      null3,      null4,      null5,      56,      null7,      null8,      8...

期望的填充结果是：

row_id, group_id1,      12,      13,      14,      15,      56,      57,      58,      8...

这种场景在处理日志数据、时间序列数据或需要按逻辑分组填充的业务数据时非常常见。

解决方案：利用PySpark窗口函数实现顺序填充

PySpark的窗口函数（Window Functions）为处理此类序列依赖型问题提供了强大且高效的工具。通过定义一个合适的窗口，我们可以访问当前行之前（或之后）的数据，并应用聚合函数。

核心思路是：

定义窗口： 创建一个基于 row_id 排序的窗口。应用聚合函数： 在这个窗口内，使用 last 函数并设置 ignorenulls=True 来获取当前行之前（包括当前行）的最后一个非空 group_id。

下面是具体的实现代码：

from pyspark.sql import SparkSessionfrom pyspark.sql import functions as Ffrom pyspark.sql.window import Window# 1. 创建SparkSessionspark = SparkSession.builder.appName("SequentialFillExample").getOrCreate()# 2. 准备示例数据data = [    (1, 1), (2, None), (3, None), (4, None),    (5, 5), (6, None), (7, None),    (8, 8), (9, None), (10, None), (11, None), (12, None)]columns = ["row_id", "group_id"]df = spark.createDataFrame(data, columns)print("原始DataFrame:")df.show()# 3. 定义窗口规范# Window.orderBy("row_id") 确保数据按row_id升序处理# rowsBetween(Window.unboundedPreceding, 0) 定义了从分区开始到当前行（包含当前行）的窗口范围windowSpec = Window.orderBy("row_id").rowsBetween(Window.unboundedPreceding, 0)# 4. 应用窗口函数进行缺失值填充# F.last("group_id", ignorenulls=True) 获取窗口内最后一个非空值filled_df = df.withColumn(    "group_id",    F.last("group_id", ignorenulls=True).over(windowSpec))print("填充后的DataFrame:")filled_df.show()# 5. 停止SparkSessionspark.stop()

代码解释：

SparkSession: Spark应用程序的入口点。data 和 columns: 用于创建示例DataFrame，模拟实际数据结构。Window.orderBy(“row_id”): 这是定义窗口的关键部分，它指定了窗口内数据行的排序方式。对于顺序填充，必须按照 row_id（或任何表示序列的列）进行排序，以确保 last 函数能够正确地找到前一个有效值。rowsBetween(Window.unboundedPreceding, 0): 这定义了窗口的边界。Window.unboundedPreceding 表示窗口从当前分区的第一行开始。0 表示窗口的结束点是当前行（currentRow 的别名）。结合起来，这个窗口包含了从分区开始到当前行的所有数据。F.last(“group_id”, ignorenulls=True).over(windowSpec): 这是应用窗口函数的核心。F.last(“group_id”, ignorenulls=True): 这个聚合函数会返回指定列 group_id 在当前窗口中的最后一个值。ignorenulls=True 参数至关重要，它指示 last 函数在查找最后一个值时忽略 null 值，从而确保我们总是能找到最近的非空值。.over(windowSpec): 将 last 函数应用于我们之前定义的 windowSpec 窗口。

注意事项与性能考量

row_id 的重要性: 确保 row_id 列是唯一且递增的，它决定了填充的顺序。如果 row_id 不唯一或顺序不正确，填充结果将不符合预期。窗口范围: rowsBetween(Window.unboundedPreceding, 0) 对于前向填充非常有效。如果需要其他类型的填充（例如后向填充或在特定组内填充），则需要相应调整窗口定义。ignorenulls=True: 这是实现“基于前一个非空值填充”的关键。如果省略此参数或设置为 False，last 函数可能会返回 null，导致填充失败。大规模数据集性能: 窗口函数在PySpark中经过高度优化，能够高效处理大规模数据集（百万甚至数十亿行）。然而，窗口操作通常涉及数据的重分区和排序，这可能会消耗较多的计算资源。对于非常大的数据集，如果可能，可以考虑先对数据进行分区，以优化窗口操作的性能。替代方案对比:fillna(): df.fillna(value) 只能用一个固定值或字典中的值填充所有 null，无法实现基于序列的动态填充。UDF (User Defined Function): 虽然可以使用UDF实现复杂的填充逻辑，但UDF通常比内置函数和窗口函数效率低，尤其是在大规模数据上，不推荐用于此类场景。

总结

通过PySpark的窗口函数，特别是结合 Window.orderBy 和 F.last(ignorenulls=True)，我们可以优雅且高效地解决DataFrame中基于前一个非空值的顺序填充问题。这种方法不仅代码简洁，而且在处理大规模数据集时表现出良好的性能和可扩展性，是数据预处理中一项非常实用的技术。理解并熟练运用窗口函数，将大大提升PySpark数据处理的能力。

以上就是PySpark DataFrame中基于前一个非空值顺序填充缺失数据的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1370354.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

PostgreSQL超万列CSV数据高效管理：JSONB方案详解

上一篇 2025年12月14日 10:28:31

优化 Tabula-py 表格提取：解决不完整数据与冗余列的实践指南

下一篇 2025年12月14日 10:28:46

好文分享

CSS元素设置em和transition后，为何载入页面无放大效果？

css元素设置em和transition后，为何载入无放大效果很多开发者在设置了em和transition后，却发现元素载入页面时无放大效果。本文将解答这一问题。原问题：在视频演示中，将元素设置如下，载入页面会有放大效果。然而，在个人尝试中，并未出现该效果。这是由于macos和windows系统…

程序猿
2025年12月24日
2000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
2000
好文分享

如何用HTML/JS实现Windows 10设置界面鼠标移动探照灯效果？

Win10设置界面中的鼠标移动探照灯效果实现指南想要在前端开发中实现类似于Windows 10设置界面的鼠标移动探照灯效果，有两种解决方案：CSS 和 HTML/JS 组合。 CSS 实现不幸的是，仅使用CSS无法完全实现该效果。立即学习“前端免费学习笔记（深入）”； HTML/JS 实现要…

程序猿
2025年12月24日
0000
好文分享

如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果？

如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果，可以通过以下途径： CSS 解决方案 DEMO 1: Windows 10 网格悬停效果：https://codepen.io/tr4553r7/pe…

程序猿
2025年12月24日
0000
好文分享

如何用前端技术实现Windows 10 设置界面鼠标移动时的探照灯效果？

探索在前端中实现 Windows 10 设置界面鼠标移动时的探照灯效果在前端开发中，鼠标悬停在元素上时需要呈现类似于 Windows 10 设置界面所展示的探照灯效果，这其中涉及到了元素外围显示光圈效果的技术实现。 CSS 实现虽然 CSS 无法直接实现探照灯效果，但可以通过以下技巧营造出类似效…

程序猿
2025年12月24日
0000
好文分享

苹果浏览器网页背景图色差问题：如何解决背景图不一致？

网页背景图在苹果浏览器上出现色差一位用户在使用苹果浏览器访问网页时遇到一个问题，网页上方的背景图比底部的背景图明显更亮。这个问题的原因很可能是背景图没有正确配置 background-size 属性。在 windows 浏览器中，背景图可能可以自动填满整个容器，但在苹果浏览器中可能需要显式设置 …

程序猿
2025年12月24日
4000
好文分享

苹果浏览器网页背景图像为何色差？

网页背景图像在苹果浏览器的色差问题在不同浏览器中，网站的背景图像有时会出现色差。例如，在 Windows 浏览器中显示正常的上层背景图，在苹果浏览器中却比下层背景图更亮。问题原因出现此问题的原因可能是背景图像未正确设置 background-size 属性。解决方案为确保背景图像在不同浏览…

程序猿
2025年12月24日
5000
好文分享

苹果电脑浏览器背景图亮度差异：为什么网页上下部背景图色差明显？

背景图在苹果电脑浏览器上亮度差异问题描述：在网页设计中，希望上部元素的背景图与页面底部的背景图完全对齐。而在 Windows 中使用浏览器时，该效果可以正常实现。然而，在苹果电脑的浏览器中却出现了明显的色差。原因分析：如果您已经排除屏幕分辨率差异的可能性，那么很可能是背景图的 backgro…

程序猿
2025年12月24日
0000
好文分享

如何在 VS Code 中解决折叠代码复制问题？

解决 VS Code 折叠代码复制问题在 VS Code 中使用折叠功能可以帮助组织长代码，但使用复制功能时，可能会遇到只复制可见部分的问题。以下是如何解决此问题：当代码被折叠时，可以使用以下简单操作复制整个折叠代码：按下 Ctrl + C (Windows/Linux) 或 Cmd + C …

程序猿
2025年12月24日
0000
好文分享

css怎么设置超出显示省略号

css设置超出显示省略号的方法：1、使用“overflow:hidden;”语句把超出的部分隐藏起来；2、使用“text-overflow:ellipsis;”语句在文本溢出包含元素时，显示省略符号来代表被隐藏的部分。本教程操作环境：windows7系统、CSS3&&HTML5版、…

程序猿
2025年12月24日
0000
好文分享

如何使用纯CSS实现Windows启动界面的动画效果

本篇文章给大家带来的内容是关于如何使用纯css实现windows启动界面的动画效果，有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。效果预览源代码下载 https://github.com/comehope/front-end-daily-challenges 代码解读定义 d…

程序猿
2025年12月24日
0000
好文分享

响应式HTML5按钮适配不同屏幕方法【方法】

实现响应式HTML5按钮需五种方法：一、CSS媒体查询按max-width断点调整样式；二、用rem/vw等相对单位替代px；三、Flexbox控制容器与按钮伸缩；四、CSS变量配合requestAnimationFrame优化的JS动态适配；五、Tailwind等框架的响应式工具类。如果您希望H…

程序猿
2025年12月23日
0000
好文分享

html5怎么加php_html5用Ajax与PHP后端交互实现数据传递【交互】

HTML5不能直接运行PHP，需通过Ajax与PHP通信：前端用fetch发送请求，PHP接收处理并返回JSON，前端解析响应更新DOM；注意跨域、编码、CSRF防护和输入过滤。 HTML5 本身是前端标记语言，不能直接运行 PHP 代码，但可以通过 Ajax（异步 JavaScript）与 PHP…

程序猿
2025年12月23日
3000
好文分享

html5 js怎么加_html5用script标签内嵌或外链引入JS代码【添加】

在HTML5中执行JavaScript需通过script标签：一、内联编写于head或body中；二、外链引入.js文件并建议放body末尾或加defer；三、defer按序执行，async独立执行；四、可动态创建script元素插入执行。如果您希望在HTML5页面中执行JavaScript代码，…

程序猿
2025年12月23日
0000
好文分享

node.js怎么运行html_node.js运行html步骤【指南】

答案是使用Node.js内置http模块、Express框架或第三方工具serve可快速搭建服务器预览HTML文件。首先通过http模块创建服务器并读取index.html返回响应；其次用Express初始化项目并配置静态文件服务；最后利用serve工具全局安装后一键启动服务器，三种方式均在浏览器访…

程序猿
2025年12月23日
3000
好文分享

html5能否插入带表单的文档_html5表单文档嵌入与数据提交【步骤】

HTML5中无法直接嵌入外部带表单的HTML文档并原生提交；可行方案有四：一、用iframe嵌入，需同源或CORS支持，并用postMessage通信；二、用fetch+DOMParser动态加载表单片段并手动绑定事件；三、在当前页面直接编写表单，最规范且兼容性好；四、用JavaScript+fet…

程序猿
2025年12月23日
0000
好文分享

HTML5怎么制作广告_HTML5用动画与交互制横幅或弹窗广告吸引点击【制作】

可利用HTML5结合CSS3动画、Canvas、Web Animations API、Intersection Observer和video标签制作互动广告：一用@keyframes实现横幅入场动画；二用Canvas绘制并响应悬停；三用Web Animations API控制弹窗时序；四用Inter…

程序猿
2025年12月23日
0000
html5怎么引用js_HTML5用外链或内嵌JS代码引用脚本【引用】

HTML5中执行JavaScript需通过外链或内嵌方式引入：一、外链用，支持defer/async；二、内嵌将代码写入间，推荐置于body底部；三、type属性默认可省略；四、模块化使用type=”module”支持ES6 import/export。 <img sr…

程序猿
好文分享 2025年12月23日
0000
好文分享

html5游戏怎么修改_HT5改JS逻辑或资源文件调整游戏玩法效果【修改】

需直接编辑核心JavaScript代码或替换图片、音频等资源文件；先用浏览器开发者工具的Sources面板定位含game、main等关键词的.js文件，再搜索score++、if (health等逻辑片段进行修改。如果您下载了某个HTML5游戏的本地文件，希望调整其玩法逻辑或替换资源以改变视觉效果…

程序猿
2025年12月23日
0000
好文分享

360怎么装html5_360浏览器默认支持HTML5无需额外安装设置【说明】

HTML5是网页标准，非独立软件，360浏览器7.0+已原生支持；需确认内核为Blink/Chromium、关闭兼容模式、禁用强制兼容策略、重置Flash插件、清除HTML5本地存储、检查系统Media Foundation组件。如果您在使用360浏览器时发现HTML5网页功能异常（如视频无法播放…

程序猿
2025年12月23日
0000