PySpark中利用窗口函数按序填充DataFrame缺失值的高效策略

程序猿 • 2025年12月14日 10:29:07 • 好文分享 • 阅读 0

本教程详细介绍了如何在PySpark DataFrame中高效地按序填充缺失值。针对 group_id 列中根据 row_id 顺序出现的 null 值，我们将利用PySpark的窗口函数（Window）结合 last 函数及 ignorenulls 参数，实现将缺失值填充为其所在组的最后一个非空值，确保数据连续性和完整性。文章提供了完整的代码示例和实现细节，适用于大规模数据集的场景。

1. 理解问题背景与需求

在数据处理过程中，我们经常会遇到dataframe中存在序列性缺失值的情况。例如，在一个包含 row_id 和 group_id 的pyspark dataframe中，row_id 是一个递增且唯一的序列号，而 group_id 则表示一个组的唯一标识。当 group_id 首次出现一个非空值时，它标志着一个新组的开始，此后的 null 值都应填充为该组的起始 group_id，直到下一个非空 group_id 出现。

例如，原始数据可能如下：

row_id, group_id1,      12,      null3,      null4,      null5,      56,      null7,      null8,      8...

我们的目标是将其转换为：

row_id, group_id1,      12,      13,      14,      15,      56,      57,      58,      8...

这种填充需求在大规模数据集（例如数百万甚至数十亿条记录）上需要高效的解决方案。

2. PySpark窗口函数概述

PySpark的窗口函数提供了一种强大的机制，允许我们在DataFrame的特定“窗口”内执行计算。一个窗口定义了一组与当前行相关的行，并且可以根据一个或多个列进行排序。在处理序列性数据和聚合操作时，窗口函数表现出卓越的灵活性和性能。

本教程将利用以下窗口函数特性：

Window.orderBy(): 定义窗口内行的排序顺序，这对于序列性填充至关重要。rowsBetween(): 进一步限定窗口的范围，例如从窗口的起始到当前行。F.last(): 获取窗口内指定列的最后一个值。ignorenulls=True: 在 last() 函数中，忽略 null 值，只考虑非 null 值。

3. 核心解决方案：使用 last 函数与窗口规范

解决此问题的关键在于正确定义窗口规范，并利用 last 函数在窗口内获取最近的非空 group_id。

3.1 步骤详解

创建SparkSession: 初始化Spark环境。准备DataFrame: 构建一个示例DataFrame，模拟实际数据结构。定义窗口规范:使用 Window.orderBy(“row_id”) 确保窗口内的行按照 row_id 升序排列，这是实现序列性填充的基础。使用 rowsBetween(Window.unboundedPreceding, 0) 定义窗口范围。这意味着对于当前行，窗口将包括从分区开始到当前行（包括当前行）的所有行。Window.unboundedPreceding 表示窗口的起始点是分区的第一行，0 表示窗口的结束点是当前行。应用 last 函数:F.last(“group_id”, ignorenulls=True)：这个函数将在我们定义的窗口内查找 group_id 列的最后一个非 null 值。ignorenulls=True 参数是至关重要的，它确保我们只考虑非空的 group_id 值进行填充。.over(windowSpec)：将 last 函数应用到之前定义的 windowSpec 窗口上。

3.2 示例代码

from pyspark.sql import SparkSessionfrom pyspark.sql import functions as Ffrom pyspark.sql.window import Window# 1. 创建一个SparkSessionspark = SparkSession.builder.appName("SequentialNullFill").getOrCreate()# 2. 准备示例DataFramedata = [    (1, 1), (2, None), (3, None), (4, None),    (5, 5), (6, None), (7, None),    (8, 8), (9, None), (10, None), (11, None), (12, None)]columns = ["row_id", "group_id"]df = spark.createDataFrame(data, columns)print("原始DataFrame:")df.show()# 3. 定义窗口规范# 窗口按 row_id 升序排列# 范围是从分区开始到当前行（包括当前行）windowSpec = Window.orderBy("row_id").rowsBetween(Window.unboundedPreceding, 0)# 4. 使用 last 窗口函数填充 null 值# ignorenulls=True 确保只考虑非空值filled_df = df.withColumn(    "group_id",    F.last("group_id", ignorenulls=True).over(windowSpec))print("填充缺失值后的DataFrame:")filled_df.show()# 停止SparkSessionspark.stop()

3.3 代码执行结果

原始DataFrame:+------+--------+|row_id|group_id|+------+--------+|     1|       1||     2|    null||     3|    null||     4|    null||     5|       5||     6|    null||     7|    null||     8|       8||     9|    null||    10|    null||    11|    null||    12|    null|+------+--------+填充缺失值后的DataFrame:+------+--------+|row_id|group_id|+------+--------+|     1|       1||     2|       1||     3|       1||     4|       1||     5|       5||     6|       5||     7|       5||     8|       8||     9|       8||    10|       8||    11|       8||    12|       8|+------+--------+

4. 注意事项与性能考量

row_id 的重要性: 此方法依赖于 row_id 的递增和唯一性来正确地定义序列顺序。如果 row_id 不具备这些特性，需要先对其进行预处理或选择其他合适的排序键。窗口范围: rowsBetween(Window.unboundedPreceding, 0) 是此解决方案的核心。它确保了在计算当前行的 group_id 时，只考虑了当前行及之前的所有行中的非空 group_id。如果使用 Window.unboundedFollowing 或其他范围，结果可能会不符合预期。性能: 对于大规模数据集，窗口函数通常比UDF（用户自定义函数）或迭代操作更高效，因为它们可以在Spark的优化器中进行优化。然而，Window.unboundedPreceding 意味着每个任务可能需要处理大量数据，这在极端情况下可能导致内存压力。如果DataFrame非常庞大且分区数不足，可能会影响性能。适当的分区策略（例如，如果存在更高级别的分组，可以在 Window.partitionBy() 中指定）可以进一步优化性能。ignorenulls=True: 务必包含此参数，否则 last 函数可能会返回 null 值，如果窗口的最后一个值恰好是 null。数据类型: 确保 group_id 列的数据类型能够支持填充后的值。

5. 总结

本教程详细阐述了如何在PySpark DataFrame中，利用窗口函数 (Window) 结合 last 函数和 ignorenulls=True 参数，高效地实现序列性缺失值填充。通过定义正确的窗口规范 (Window.orderBy(“row_id”).rowsBetween(Window.unboundedPreceding, 0))，我们能够将 group_id 列中的 null 值填充为其所在序列中最近的非空值，从而满足数据连续性的需求。此方法在处理大规模数据集时表现出良好的性能和扩展性，是PySpark数据清洗和预处理中的一个重要技巧。

以上就是PySpark中利用窗口函数按序填充DataFrame缺失值的高效策略的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1370364.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

使用 PySpark 顺序填充 DataFrame 中的缺失值

上一篇 2025年12月14日 10:29:01

使用Tabula-py精确提取PDF表格数据及优化处理

下一篇 2025年12月14日 10:29:13

好文分享

如何利用BFC和inline-block解决兄弟元素间margin塌陷问题？

BFC清除兄弟元素间margin塌陷原理 margin塌陷问题当相邻的块级元素垂直排列，它们的margin可能会塌陷并重叠，称为margin塌陷。 BFC清除margin塌陷清除margin塌陷的一种常见方法是将下方元素包裹在一个新的块级格式化上下文（BFC）中，因为BFC之间不会相互影响。 d…

程序猿
2025年12月24日
5000
好文分享

如何优化CSS Grid布局中子元素排列和宽度问题？

css grid布局中的优化问题在使用css grid布局时可能会遇到以下问题：问题1：无法控制box1中li的布局 box1设置了grid-template-columns: repeat(auto-fill, 20%)，这意味着容器将自动填充尽可能多的20%宽度的列。当li数量大于5时，它们…

程序猿
2025年12月24日
8000
为什么设置 `overflow: hidden` 会导致 `inline-block` 元素错位？

overflow 导致 inline-block 元素错位解析当多个 inline-block 元素并列排列时，可能会出现错位显示的问题。这通常是由于其中一个元素设置了 overflow 属性引起的。问题现象在不设置 overflow 属性时，元素按预期显示在同一水平线上：不设置 overf…

程序猿
2025年12月24日 • 好文分享
4000
好文分享

面板翻页显示16张图片和信息，如何实现模块靠左显示并按行排列？

如何在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示？问题：在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果。已知信息：图片和信息使用json数据定义。使用paginationbyjs函数进行分页。使…

程序猿
2025年12月24日
0000
好文分享

如何在面板上翻页显示16个图片和信息，并实现模块靠左显示、内容按行排列？

如何设置div内的模块靠左显示，模块内容按行显示？问题：在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果。答案：要将div内的模块靠左显示，并按行排列模块内容，可以使用以下方式：给div容器添加flexbox属性： #list {…

程序猿
2025年12月24日
0000
好文分享

如何实现 div 内模块靠左显示并按行排列，且翻页显示图片和信息？

如何设置div内的模块靠左显示，模块内容按行显示？在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果中间部分里面的图片，文字显示在图片下方第二页图片靠左显示以上就是如何实现 div 内模块靠左显示并按行排列，且翻页显示图片和信息？的…

程序猿
2025年12月24日
0000
好文分享

CSS元素设置em和transition后，为何载入页面无放大效果？

css元素设置em和transition后，为何载入无放大效果很多开发者在设置了em和transition后，却发现元素载入页面时无放大效果。本文将解答这一问题。原问题：在视频演示中，将元素设置如下，载入页面会有放大效果。然而，在个人尝试中，并未出现该效果。这是由于macos和windows系统…

程序猿
2025年12月24日
2000
好文分享

inline-block元素错位了，是为什么？

inline-block元素错位背后的原因 inline-block元素是一种特殊类型的块级元素，它可以与其他元素行内排列。但是，在某些情况下，inline-block元素可能会出现错位显示的问题。错位的原因当inline-block元素设置了overflow:hidden属性时，它会影响元素的…

程序猿
2025年12月24日
0000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
2000
好文分享

如何用HTML/JS实现Windows 10设置界面鼠标移动探照灯效果？

Win10设置界面中的鼠标移动探照灯效果实现指南想要在前端开发中实现类似于Windows 10设置界面的鼠标移动探照灯效果，有两种解决方案：CSS 和 HTML/JS 组合。 CSS 实现不幸的是，仅使用CSS无法完全实现该效果。立即学习“前端免费学习笔记（深入）”； HTML/JS 实现要…

程序猿
2025年12月24日
0000
好文分享

如何让 div 内的模块靠左显示，模块内容按行排列，并在面板上实现翻页展示？

如何设置div内的模块靠左显示，模块内容按行显示？在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果 css 代码： #List { display: flex; flex-wrap: wrap;}#List > div { text…

程序猿
2025年12月24日
0000
好文分享

如何使用 CSS Grid 布局实现固定头部和动态渲染的子元素布局？

如何实现固定布局和遍历 div？如图所示，第一个 div 固定在页面顶部，后四个 div 通过 for 循环动态渲染在下方。询问如何实现此布局，以及是否有更好的解决方案。解决方案： grid 布局立即学习“前端免费学习笔记（深入）”； grid 布局非常适合解决此问题： html 代码：固定…

程序猿
2025年12月24日
0000
好文分享

如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果？

如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果，可以通过以下途径： CSS 解决方案 DEMO 1: Windows 10 网格悬停效果：https://codepen.io/tr4553r7/pe…

程序猿
2025年12月24日
0000
好文分享

如何用前端技术实现Windows 10 设置界面鼠标移动时的探照灯效果？

探索在前端中实现 Windows 10 设置界面鼠标移动时的探照灯效果在前端开发中，鼠标悬停在元素上时需要呈现类似于 Windows 10 设置界面所展示的探照灯效果，这其中涉及到了元素外围显示光圈效果的技术实现。 CSS 实现虽然 CSS 无法直接实现探照灯效果，但可以通过以下技巧营造出类似效…

程序猿
2025年12月24日
0000
好文分享

Flex 布局中，padding-right 为何无效？

在 flex 布局中，padding-right 为何无效？在使用 flex 布局时，当父元素设置了 padding-right，而内部元素纵向排列且高度固定，并允许横向滑动时，padding-right 可能不起作用。解决此问题的一个方法是修改父元素的 width 属性。将 width: 10…

程序猿
2025年12月24日
2000
好文分享

如何用 CSS 实现固定布局和遍历生成的 DIV，使其第一个固定不动，剩余的以 1234 顺序排列？

如何实现固定布局和遍历div 如图所示，大的div固定在第一个位置，而标有1234的div则是通过for循环生成的。能否实现这样的布局，或者有更好的解决方案？解决方案：要实现这样的布局，推荐使用grid布局，它可以完美地解决这个问题。立即学习“前端免费学习笔记（深入）”；布局如下：第一个d…

程序猿
2025年12月24日
0000
如何用CSS Grid布局实现首个div固定位置，其他div自动排列？

css布使用固定布局和遍历div 如图所示，有一个大的div固定在第一个位置，里面有若干个通过for循环生成的div，编号为1、2、3、4。解决方案使用css的grid布局可以完美解决这个问题。立即学习“前端免费学习笔记（深入）”； html结构固定不动其他1 其他2 其他3 其他4 其他…

程序猿
好文分享 2025年12月24日
0000
好文分享

如何使用 Grid 布局解决固定布局和遍历 Div 问题？

解决固定布局和遍历 div 问题在开发中，我们有时需要创建固定布局中循环生成的元素。使用传统的定位方法可能比较复杂，这里为大家推荐一个完美的解决方案：grid 布局。方案：使用 grid 布局，设置容器为一行两列布局，第一个元素占据两行一列，其他元素自动排列。为容器设置边框和间距样式。为第一个…

程序猿
2025年12月24日
0000
垂直排版如何解决纵向展示文字溢出问题？

纵向展示文字溢出的省略号处理在纵向排列的文字中，传统的水平溢出省略方案变得不适用。针对这一问题，css 提供了一种优雅的解决方案：垂直排版。垂直排版方案通过 css 的 writing-mode 属性，可以将原先水平排列的文字垂直排列。具体代码如下： p { writing-mode: ver…

程序猿
好文分享 2025年12月24日
0000
好文分享

如何实现与设计稿一致的前端进度条？

前端进度条的实现方案及优化方法要实现一个如设计稿所示的进度条，以下是一些思路：自定义原生进度条优点：可高度定制，可以满足各种特殊需求。缺点：需要自己编写所有代码，包括圆环效果和鼠标移上提示信息。立即学习“前端免费学习笔记（深入）”；基于 Element-UI 进度条优点：使用现成组件，可…

程序猿
2025年12月24日
0000