PySpark 数据框中从数组列获取最大值及其对应索引元素

程序猿 • 2025年12月14日 10:48:42 • 好文分享 • 阅读 0

本文详细介绍了在 PySpark 数据框中，如何从一个数组列（如 label）中找出最大值，并同时从另一个具有相同索引的数组列（如 id）中获取对应的元素。核心方法是利用 arrays_zip 将两列合并，然后使用 inline 展开，结合窗口函数 Window.partitionBy 来高效地识别并筛选出每个原始行中最大值及其关联元素，最终实现期望的数据转换。

1. 问题描述

在数据处理中，我们经常会遇到包含数组类型列的 PySpark DataFrame。一个常见的需求是，对于 DataFrame 中的每一行，我们需要在一个数组列中找到最大值，并同时获取在另一个数组列中与该最大值处于相同索引位置的元素。

例如，给定一个 DataFrame 结构如下：

id label md

[a, b, c][1, 4, 2]3[b, d][7, 2]1[a, c][1, 2]8

我们的目标是得到以下结果：

id label md

b43b71c28

可以看到，对于第一行，label 列的最大值是 4，它在数组中的索引是 1。id 列在索引 1 处的值是 ‘b’，因此结果是 (b, 4, 3)。其他行同理。

2. 解决方案概述

解决此问题的核心思路是：

合并数组列： 将需要进行匹配的两列（id 和 label）按索引位置进行合并，形成一个包含 (id, label) 对的数组。展开数组： 将合并后的数组展开，使得每一对 (id, label) 成为 DataFrame 的一行，同时保留原始行的其他信息（如 md）。识别最大值： 使用窗口函数，在每个原始行对应的组内（通过 md 列标识），找出 label 列的最大值。筛选结果： 过滤出 label 值等于其所在组内最大值的行。

3. PySpark 实现步骤

下面将通过 PySpark 代码详细展示如何实现上述逻辑。

3.1 准备环境与数据

首先，我们需要导入必要的 PySpark 函数并创建示例 DataFrame。

from pyspark.sql import SparkSessionfrom pyspark.sql import functions as Ffrom pyspark.sql.window import Windowfrom pyspark.sql.types import StructType, StructField, ArrayType, StringType, IntegerType# 创建 SparkSessionspark = SparkSession.builder.appName("GetMaxFromArrays").getOrCreate()# 定义 DataFrame 结构schema = StructType([    StructField("id", ArrayType(StringType()), True),    StructField("label", ArrayType(IntegerType()), True),    StructField("md", IntegerType(), True)])# 创建示例数据data = [    (["a", "b", "c"], [1, 4, 2], 3),    (["b", "d"], [7, 2], 1),    (["a", "c"], [1, 2], 8)]df = spark.createDataFrame(data, schema)df.show(truncate=False)# +-----------+-----------+---+# |id         |label      |md |# +-----------+-----------+---+# |[a, b, c]  |[1, 4, 2]  |3  |# |[b, d]     |[7, 2]     |1  |# |[a, c]     |[1, 2]     |8  |# +-----------+-----------+---+

3.2 合并并展开数组

使用 F.arrays_zip 函数将 id 和 label 列按索引合并成一个 array> 类型的列。然后，利用 F.inline 函数（或 F.explode）将这个结构体数组展开，使得每个 (id, label) 对都变成独立的一行。

# 合并 'id' 和 'label' 列，并使用 inline 展开# inline 函数将 array 类型列中的每个 struct 展开为单独的行# 并且每个 struct 的字段会成为新的列df_exploded = df.selectExpr("md", "inline(arrays_zip(id, label))")df_exploded.show(truncate=False)# +---+---+-----+# |md |id |label|# +---+---+-----+# |3  |a  |1    |# |3  |b  |4    |# |3  |c  |2    |# |1  |b  |7    |# |1  |d  |2    |# |8  |a  |1    |# |8  |c  |2    |# +---+---+-----+

3.3 使用窗口函数识别最大值并筛选

接下来，我们需要在每个原始行（由 md 列唯一标识）的组内找到 label 的最大值。这可以通过定义一个窗口，并应用 max() 聚合函数实现。

# 定义窗口，按 'md' 列分区，因为我们希望在每个原始行（由 md 标识）的内部查找最大值window_spec = Window.partitionBy("md")# 使用窗口函数计算每个 md 组内的最大 label 值df_with_max_label = df_exploded.withColumn(    "mx_label",     F.max("label").over(window_spec))df_with_max_label.show(truncate=False)# +---+---+-----+--------+# |md |id |label|mx_label|# +---+---+-----+--------+# |1  |b  |7    |7       |# |1  |d  |2    |7       |# |3  |a  |1    |4       |# |3  |b  |4    |4       |# |3  |c  |2    |4       |# |8  |a  |1    |2       |# |8  |c  |2    |2       |# +---+---+-----+--------+# 过滤出 label 等于其所在组内最大 label 的行# 注意：如果存在多个相同的最大值，则会返回所有匹配的行。# 如果只需要其中一个，可能需要额外的排序或聚合操作。final_df = df_with_max_label.filter(    F.col("label") == F.col("mx_label")).drop("mx_label") # 删除辅助列final_df.show(truncate=False)# +---+---+-----+# |md |id |label|# +---+---+-----+# |1  |b  |7    |# |3  |b  |4    |# |8  |c  |2    |# +---+---+-----+

4. 注意事项与高级用法

md 列的唯一性： 上述解决方案假设 md 列能够唯一标识原始 DataFrame 中的每一行。如果原始 DataFrame 中存在多行具有相同的 md 值，并且你需要对这些具有相同 md 值的行进行独立的“最大值查找”，那么 Window.partitionBy(“md”) 将会把它们视为同一个组。在这种情况下，你需要先为原始 DataFrame 添加一个真正的唯一行标识符（例如使用 F.monotonically_increasing_id() 或 F.row_number()），然后将该唯一标识符作为窗口函数的 partitionBy 键。

# 示例：如果 md 不唯一，先添加唯一ID# df_indexed = df.withColumn("row_id", F.monotonically_increasing_id())# df_exploded = df_indexed.selectExpr("row_id", "md", "inline(arrays_zip(id, label))")# window_spec = Window.partitionBy("row_id") # 使用 row_id 作为分区键# ...后续步骤

多个最大值： 如果 label 数组中存在多个相同的最大值，并且你只需要其中一个对应的 id 元素，你可以在 filter 之后添加一个 row_number().over(Window.partitionBy(“md”).orderBy(F.lit(1))) 并筛选 row_number == 1。然而，通常情况下，返回所有匹配的最大值是更符合逻辑的行为。

性能考量： inline（或 explode）操作会将每一行展开成多行，这会增加 DataFrame 的行数。对于非常大的数据集，这可能导致性能开销。然而，这种方法通常比使用 UDF（用户自定义函数）处理数组更高效，因为 arrays_zip 和 inline 是 Spark 的内置函数，经过了高度优化。

列别名： 在实际应用中，为了避免列名冲突或提高可读性，建议在 arrays_zip 或 inline 之后显式地重命名新生成的列。

5. 总结

本文提供了一种在 PySpark 中高效地从数组列中提取最大值及其对应索引元素的教程。通过结合使用 arrays_zip、inline 和窗口函数，我们能够以声明式的方式，在不使用低效 UDF 的情况下，优雅地解决这类常见的数据转换问题。理解 md 列作为分区键的作用及其唯一性要求，是正确应用此方法的关键。

以上就是PySpark 数据框中从数组列获取最大值及其对应索引元素的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1370742.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Python怎么计算列表的长度_Python列表长度计算方法

上一篇 2025年12月14日 10:48:34

深入理解python-pptx：在“标题和内容”幻灯片中定位内容框

下一篇 2025年12月14日 10:48:49

好文分享

响应式HTML5按钮适配不同屏幕方法【方法】

实现响应式HTML5按钮需五种方法：一、CSS媒体查询按max-width断点调整样式；二、用rem/vw等相对单位替代px；三、Flexbox控制容器与按钮伸缩；四、CSS变量配合requestAnimationFrame优化的JS动态适配；五、Tailwind等框架的响应式工具类。如果您希望H…

程序猿
2025年12月23日
0000
好文分享

html5怎么加php_html5用Ajax与PHP后端交互实现数据传递【交互】

HTML5不能直接运行PHP，需通过Ajax与PHP通信：前端用fetch发送请求，PHP接收处理并返回JSON，前端解析响应更新DOM；注意跨域、编码、CSRF防护和输入过滤。 HTML5 本身是前端标记语言，不能直接运行 PHP 代码，但可以通过 Ajax（异步 JavaScript）与 PHP…

程序猿
2025年12月23日
3000
好文分享

html5 js怎么加_html5用script标签内嵌或外链引入JS代码【添加】

在HTML5中执行JavaScript需通过script标签：一、内联编写于head或body中；二、外链引入.js文件并建议放body末尾或加defer；三、defer按序执行，async独立执行；四、可动态创建script元素插入执行。如果您希望在HTML5页面中执行JavaScript代码，…

程序猿
2025年12月23日
0000
好文分享

node.js怎么运行html_node.js运行html步骤【指南】

答案是使用Node.js内置http模块、Express框架或第三方工具serve可快速搭建服务器预览HTML文件。首先通过http模块创建服务器并读取index.html返回响应；其次用Express初始化项目并配置静态文件服务；最后利用serve工具全局安装后一键启动服务器，三种方式均在浏览器访…

程序猿
2025年12月23日
3000
好文分享

html5能否插入带表单的文档_html5表单文档嵌入与数据提交【步骤】

HTML5中无法直接嵌入外部带表单的HTML文档并原生提交；可行方案有四：一、用iframe嵌入，需同源或CORS支持，并用postMessage通信；二、用fetch+DOMParser动态加载表单片段并手动绑定事件；三、在当前页面直接编写表单，最规范且兼容性好；四、用JavaScript+fet…

程序猿
2025年12月23日
0000
好文分享

HTML5怎么制作广告_HTML5用动画与交互制横幅或弹窗广告吸引点击【制作】

可利用HTML5结合CSS3动画、Canvas、Web Animations API、Intersection Observer和video标签制作互动广告：一用@keyframes实现横幅入场动画；二用Canvas绘制并响应悬停；三用Web Animations API控制弹窗时序；四用Inter…

程序猿
2025年12月23日
0000
html5怎么引用js_HTML5用外链或内嵌JS代码引用脚本【引用】

HTML5中执行JavaScript需通过外链或内嵌方式引入：一、外链用，支持defer/async；二、内嵌将代码写入间，推荐置于body底部；三、type属性默认可省略；四、模块化使用type=”module”支持ES6 import/export。 <img sr…

程序猿
好文分享 2025年12月23日
0000
好文分享

360怎么装html5_360浏览器默认支持HTML5无需额外安装设置【说明】

HTML5是网页标准，非独立软件，360浏览器7.0+已原生支持；需确认内核为Blink/Chromium、关闭兼容模式、禁用强制兼容策略、重置Flash插件、清除HTML5本地存储、检查系统Media Foundation组件。如果您在使用360浏览器时发现HTML5网页功能异常（如视频无法播放…

程序猿
2025年12月23日
0000
好文分享

html5怎么跳出页面_HT5用location.href或a标签实现页面跳转跳出【跳出】

HTML5页面跳转有五种方法：一、location.href直接跳转并替换历史；二、location.replace()跳转且不保留当前页历史；三、a标签href跳转，支持新窗口及历史回退；四、a标签+JavaScript事件控制条件跳转；五、meta refresh实现定时自动跳转。如果您希望在…

程序猿
2025年12月23日
2000
好文分享

html如何滑动_实现HTML页面或元素滑动效果【效果】

可通过CSS scroll-behavior实现平滑锚点跳转，JavaScript scrollTo精确控制滚动位置，CSS transform模拟高性能滑动动画，或使用Swiper等第三方库实现触摸拖拽、循环播放等高级交互功能。如果您希望在网页中实现页面或特定元素的滑动效果，可以通过CSS和Ja…

程序猿
2025年12月23日
0000
好文分享

html5怎么插入文档_HT5用object或iframe嵌入PDF/Word文档显示【插入】

可在HTML5中用iframe或object标签嵌入PDF，需设宽高及可访问路径；Word文档需借OneDrive等第三方服务代理渲染；须处理跨域限制并提供下载降级方案。如果您希望在HTML5页面中嵌入PDF或Word文档并直接显示，可以使用或标签实现。以下是几种可行的嵌入方法：一、使用ifra…

程序猿
2025年12月23日
2000
好文分享

html5能否让搜索框随滚动固定_html5positionfixed固定布局【攻略】

可使用CSS的position: fixed实现搜索框固定定位，或用position: sticky实现边界感知粘性效果，配合JavaScript动态控制、响应式适配及占位修复，确保滚动时稳定显示。如果您希望在网页滚动过程中让搜索框始终保持在可视区域的固定位置，HTML5 本身不提供直接的布局控制…

程序猿
2025年12月23日
2000
好文分享

html5怎么设置黑体_html5用CSS font-family设黑体或font-weight加粗【设置】

在HTML5中实现黑体及加粗需用CSS的font-family和font-weight：一、font-family按优先级列“SimHei”,“Microsoft YaHei”,“Heiti SC”,sans-serif；二、font-weight用700或bold；三、组合声明并注意继承；四、可用…

程序猿
2025年12月23日
0000
好文分享

如何操作html_操作HTML元素的常用方法【常用】

必须掌握操作HTML元素的五种核心方法：一、通过ID精准获取并修改单个元素；二、通过类名批量操作多个元素；三、用querySelector系列灵活选择任意CSS匹配元素；四、动态创建并插入新元素；五、安全移除或替换现有元素。如果您需要动态修改网页内容或响应用户交互，则必须掌握操作HTML元素的核心…

程序猿
2025年12月23日
2000
好文分享

html5框架怎么设置_HTML5用iframe或div框架集嵌入子页面设框架【设置】

HTML5中嵌入子页面的现代方案有四种：一、用iframe标签直接嵌入，支持安全与可访问性属性；二、用CSS Grid/Flexbox布局配合JavaScript动态加载HTML片段；三、用Shadow DOM封装自定义元素实现样式脚本隔离；四、用object标签嵌入HTML并提供fallback内…

程序猿
2025年12月23日
2000
好文分享

怎么用html5链接_html5用a标签href属性给文字或图片加跳转链接【使用】

HTML5中使用a元素配合href属性实现跳转：可为文字、图片添加超链接；支持绝对URL、相对路径及页面内锚点；通过target=”_blank”和rel=”noopener”可在新标签页安全打开链接。如果您希望在网页中为文字或图片添加可点击的跳转功…

程序猿
2025年12月23日
3000
好文分享

html5怎么添加脚本_html5用script标签内嵌或外链引入JS脚本【添加】

在HTML5中执行JavaScript需用script标签：一、内嵌代码适用于简短脚本，应置于body底部且不设src属性；二、外链JS文件利于复用，推荐加defer属性确保顺序执行；三、type属性可选但推荐，type=”module”支持ES模块且自动defer。如果您…

程序猿
2025年12月23日
2000
好文分享

visual怎么创建html5_VS新建HTML File选HTML5模板快速创建页面【创建】

可在Visual Studio中通过新建文件选HTML5模板、新建ASP.NET Core Web App项目或手动创建.html文件并输入及html:5代码段三种方式快速生成HTML5网页。如果您在 Visual Studio 中需要快速创建一个符合 HTML5 标准的网页文件，则可通过新建项目…

程序猿
2025年12月23日
0000
好文分享

html如何设置新版本_为HTML页面设置版本更新提示【提示】

可通过meta标签检测、Service Worker监听、Last-Modified头比对、manifest.json校验四种方式提示HTML页面新版本更新。如果您希望用户在访问HTML页面时获知存在新版本并提示更新，可以通过客户端缓存控制与版本标识机制触发提示行为。以下是实现该功能的多种方法： …

程序猿
2025年12月23日
0000
jimdo怎样用html5做图片放大镜_jimdo图片放大镜html5实现与放大倍数【实操】

可在 Jimdo 网站通过四种方式实现图片放大镜效果：一、纯 HTML5+CSS3+JS 实现 canvas 局部放大；二、集成 magnific-popup 插件支持弹窗缩放；三、纯 CSS hover 缩放模拟；四、利用 data-zoom 属性动态触发 canvas 放大。如果您在 Jimd…

程序猿
2025年12月23日 • 好文分享
0000