使用 PySpark 顺序填充 DataFrame 中的缺失值

程序猿 • 2025年12月14日 10:29:01 • 好文分享 • 阅读 0

本文介绍了如何使用 PySpark 顺序填充 DataFrame 中的缺失值。通过使用窗口函数和 last 函数，我们可以高效地将每个 group_id 中的空值填充为该组的第一个非空值，从而解决在大型 DataFrame 中处理缺失值的问题。该方法适用于已知 row_id 是顺序且唯一的情况。

在数据处理过程中，经常会遇到需要填充 DataFrame 中缺失值的情况。当缺失值具有一定的顺序性或分组性时，例如，希望将每个分组中的缺失值填充为该分组的第一个有效值，可以使用 PySpark 的窗口函数来实现。以下将详细介绍如何使用 PySpark 顺序填充 DataFrame 中的缺失值。

准备工作

首先，需要创建一个 SparkSession 并准备好示例数据。

from pyspark.sql import SparkSessionfrom pyspark.sql import functions as Ffrom pyspark.sql.window import Window# 创建 SparkSessionspark = SparkSession.builder.appName("FillMissingValues").getOrCreate()# 示例数据data = [(1, 1), (2, None), (3, None), (4, None), (5, 5), (6, None), (7, None), (8, 8), (9, None), (10, None), (11, None), (12, None)]columns = ["row_id", "group_id"]df = spark.createDataFrame(data, columns)df.show()

这段代码首先导入必要的库，包括 SparkSession 用于创建 Spark 会话，functions (别名 F) 用于使用 Spark 内置函数，以及 Window 用于定义窗口规范。然后，创建一个名为 “FillMissingValues” 的 SparkSession。接着，创建包含 row_id 和 group_id 的示例数据，并将其转换为 PySpark DataFrame。最后，使用 df.show() 显示 DataFrame 的内容。

使用窗口函数填充缺失值

核心思路是使用窗口函数 last 来查找每个 row_id 之前（包括当前行）的最后一个非空 group_id 值。通过定义一个基于 row_id 排序的窗口，并设置其范围为从第一行到当前行，就可以实现顺序填充的效果。

# 定义窗口规范windowSpec = Window.orderBy("row_id").rowsBetween(Window.unboundedPreceding, 0)# 使用 last 函数填充缺失值filled_df = df.withColumn("group_id", F.last("group_id", ignorenulls=True).over(windowSpec))# 显示结果filled_df.show()

这段代码首先定义了一个窗口规范 windowSpec，该规范基于 row_id 进行排序，并指定窗口的范围为从第一行 (Window.unboundedPreceding) 到当前行 (0)。然后，使用 withColumn 函数创建一个新的 group_id 列，其值为 F.last(“group_id”, ignorenulls=True).over(windowSpec)。F.last 函数查找窗口中最后一个非空 (ignorenulls=True) 的 group_id 值，并将其应用于每个 row_id。最后，使用 filled_df.show() 显示填充后的 DataFrame。

代码解释

Window.orderBy(“row_id”): 定义窗口的排序方式，这里按照 row_id 升序排列。确保了顺序填充的正确性。Window.rowsBetween(Window.unboundedPreceding, 0): 定义窗口的范围。Window.unboundedPreceding 表示窗口从第一行开始，0 表示窗口到当前行结束。这意味着对于每一行，窗口都包含从第一行到当前行的所有行。F.last(“group_id”, ignorenulls=True).over(windowSpec): F.last 函数用于获取窗口中最后一个非空值。ignorenulls=True 参数表示忽略空值，只查找非空值。over(windowSpec) 将 last 函数应用到定义的窗口上。

注意事项

确保 row_id 是顺序且唯一的。如果 row_id 不是顺序的，则需要先对其进行排序。如果数据量非常大，可以考虑对 DataFrame 进行分区，以提高计算效率。此方法适用于将缺失值填充为该组的第一个有效值。如果需要使用其他填充策略，例如使用平均值或中位数，则需要使用不同的函数。

总结

通过使用 PySpark 的窗口函数和 last 函数，可以方便地实现 DataFrame 中缺失值的顺序填充。这种方法在处理具有分组性和顺序性的数据时非常有效，可以帮助我们更好地进行数据清洗和分析。

以上就是使用 PySpark 顺序填充 DataFrame 中的缺失值的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1370362.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

PostgreSQL处理超万列CSV数据：JSONB与GIN索引的实践指南

上一篇 2025年12月14日 10:28:57

PySpark中利用窗口函数按序填充DataFrame缺失值的高效策略

下一篇 2025年12月14日 10:29:07

好文分享

如何利用BFC和inline-block解决兄弟元素间margin塌陷问题？

BFC清除兄弟元素间margin塌陷原理 margin塌陷问题当相邻的块级元素垂直排列，它们的margin可能会塌陷并重叠，称为margin塌陷。 BFC清除margin塌陷清除margin塌陷的一种常见方法是将下方元素包裹在一个新的块级格式化上下文（BFC）中，因为BFC之间不会相互影响。 d…

程序猿
2025年12月24日
5000
好文分享

如何优化CSS Grid布局中子元素排列和宽度问题？

css grid布局中的优化问题在使用css grid布局时可能会遇到以下问题：问题1：无法控制box1中li的布局 box1设置了grid-template-columns: repeat(auto-fill, 20%)，这意味着容器将自动填充尽可能多的20%宽度的列。当li数量大于5时，它们…

程序猿
2025年12月24日
8000
为什么设置 `overflow: hidden` 会导致 `inline-block` 元素错位？

overflow 导致 inline-block 元素错位解析当多个 inline-block 元素并列排列时，可能会出现错位显示的问题。这通常是由于其中一个元素设置了 overflow 属性引起的。问题现象在不设置 overflow 属性时，元素按预期显示在同一水平线上：不设置 overf…

程序猿
2025年12月24日 • 好文分享
4000
好文分享

面板翻页显示16张图片和信息，如何实现模块靠左显示并按行排列？

如何在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示？问题：在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果。已知信息：图片和信息使用json数据定义。使用paginationbyjs函数进行分页。使…

程序猿
2025年12月24日
0000
好文分享

如何在面板上翻页显示16个图片和信息，并实现模块靠左显示、内容按行排列？

如何设置div内的模块靠左显示，模块内容按行显示？问题：在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果。答案：要将div内的模块靠左显示，并按行排列模块内容，可以使用以下方式：给div容器添加flexbox属性： #list {…

程序猿
2025年12月24日
0000
好文分享

如何实现 div 内模块靠左显示并按行排列，且翻页显示图片和信息？

如何设置div内的模块靠左显示，模块内容按行显示？在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果中间部分里面的图片，文字显示在图片下方第二页图片靠左显示以上就是如何实现 div 内模块靠左显示并按行排列，且翻页显示图片和信息？的…

程序猿
2025年12月24日
0000
好文分享

CSS元素设置em和transition后，为何载入页面无放大效果？

css元素设置em和transition后，为何载入无放大效果很多开发者在设置了em和transition后，却发现元素载入页面时无放大效果。本文将解答这一问题。原问题：在视频演示中，将元素设置如下，载入页面会有放大效果。然而，在个人尝试中，并未出现该效果。这是由于macos和windows系统…

程序猿
2025年12月24日
2000
好文分享

inline-block元素错位了，是为什么？

inline-block元素错位背后的原因 inline-block元素是一种特殊类型的块级元素，它可以与其他元素行内排列。但是，在某些情况下，inline-block元素可能会出现错位显示的问题。错位的原因当inline-block元素设置了overflow:hidden属性时，它会影响元素的…

程序猿
2025年12月24日
0000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
2000
好文分享

如何用HTML/JS实现Windows 10设置界面鼠标移动探照灯效果？

Win10设置界面中的鼠标移动探照灯效果实现指南想要在前端开发中实现类似于Windows 10设置界面的鼠标移动探照灯效果，有两种解决方案：CSS 和 HTML/JS 组合。 CSS 实现不幸的是，仅使用CSS无法完全实现该效果。立即学习“前端免费学习笔记（深入）”； HTML/JS 实现要…

程序猿
2025年12月24日
0000
好文分享

如何让 div 内的模块靠左显示，模块内容按行排列，并在面板上实现翻页展示？

如何设置div内的模块靠左显示，模块内容按行显示？在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果 css 代码： #List { display: flex; flex-wrap: wrap;}#List > div { text…

程序猿
2025年12月24日
0000
好文分享

如何使用 CSS Grid 布局实现固定头部和动态渲染的子元素布局？

如何实现固定布局和遍历 div？如图所示，第一个 div 固定在页面顶部，后四个 div 通过 for 循环动态渲染在下方。询问如何实现此布局，以及是否有更好的解决方案。解决方案： grid 布局立即学习“前端免费学习笔记（深入）”； grid 布局非常适合解决此问题： html 代码：固定…

程序猿
2025年12月24日
0000
好文分享

如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果？

如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果，可以通过以下途径： CSS 解决方案 DEMO 1: Windows 10 网格悬停效果：https://codepen.io/tr4553r7/pe…

程序猿
2025年12月24日
0000
好文分享

如何用前端技术实现Windows 10 设置界面鼠标移动时的探照灯效果？

探索在前端中实现 Windows 10 设置界面鼠标移动时的探照灯效果在前端开发中，鼠标悬停在元素上时需要呈现类似于 Windows 10 设置界面所展示的探照灯效果，这其中涉及到了元素外围显示光圈效果的技术实现。 CSS 实现虽然 CSS 无法直接实现探照灯效果，但可以通过以下技巧营造出类似效…

程序猿
2025年12月24日
0000
好文分享

Flex 布局中，padding-right 为何无效？

在 flex 布局中，padding-right 为何无效？在使用 flex 布局时，当父元素设置了 padding-right，而内部元素纵向排列且高度固定，并允许横向滑动时，padding-right 可能不起作用。解决此问题的一个方法是修改父元素的 width 属性。将 width: 10…

程序猿
2025年12月24日
2000
好文分享

如何用 CSS 实现固定布局和遍历生成的 DIV，使其第一个固定不动，剩余的以 1234 顺序排列？

如何实现固定布局和遍历div 如图所示，大的div固定在第一个位置，而标有1234的div则是通过for循环生成的。能否实现这样的布局，或者有更好的解决方案？解决方案：要实现这样的布局，推荐使用grid布局，它可以完美地解决这个问题。立即学习“前端免费学习笔记（深入）”；布局如下：第一个d…

程序猿
2025年12月24日
0000
如何用CSS Grid布局实现首个div固定位置，其他div自动排列？

css布使用固定布局和遍历div 如图所示，有一个大的div固定在第一个位置，里面有若干个通过for循环生成的div，编号为1、2、3、4。解决方案使用css的grid布局可以完美解决这个问题。立即学习“前端免费学习笔记（深入）”； html结构固定不动其他1 其他2 其他3 其他4 其他…

程序猿
好文分享 2025年12月24日
0000
好文分享

如何使用 Grid 布局解决固定布局和遍历 Div 问题？

解决固定布局和遍历 div 问题在开发中，我们有时需要创建固定布局中循环生成的元素。使用传统的定位方法可能比较复杂，这里为大家推荐一个完美的解决方案：grid 布局。方案：使用 grid 布局，设置容器为一行两列布局，第一个元素占据两行一列，其他元素自动排列。为容器设置边框和间距样式。为第一个…

程序猿
2025年12月24日
0000
垂直排版如何解决纵向展示文字溢出问题？

纵向展示文字溢出的省略号处理在纵向排列的文字中，传统的水平溢出省略方案变得不适用。针对这一问题，css 提供了一种优雅的解决方案：垂直排版。垂直排版方案通过 css 的 writing-mode 属性，可以将原先水平排列的文字垂直排列。具体代码如下： p { writing-mode: ver…

程序猿
好文分享 2025年12月24日
0000
好文分享

如何实现与设计稿一致的前端进度条？

前端进度条的实现方案及优化方法要实现一个如设计稿所示的进度条，以下是一些思路：自定义原生进度条优点：可高度定制，可以满足各种特殊需求。缺点：需要自己编写所有代码，包括圆环效果和鼠标移上提示信息。立即学习“前端免费学习笔记（深入）”；基于 Element-UI 进度条优点：使用现成组件，可…

程序猿
2025年12月24日
0000

发表回复

登录后才能评论