使用 PySpark 将 JSON 属性数据透视为表格列

使用 PySpark 将 JSON 属性数据透视为表格列

本教程详细介绍了如何使用 PySpark 将 Oracle REST API 返回的 JSON 数组数据(其中属性名和属性值以键值对形式存在)转换为结构化的表格格式。通过 PySpark 读取 JSON 数据并结合 Spark SQL 的 MAX(CASE WHEN …) 语句,实现将动态属性名称(如 ‘LOG_ID’ 和 ‘BUSINESS_UNIT’)透视为独立的列,从而方便数据分析和处理。

在数据集成和处理过程中,我们经常会遇到来自 rest api 的响应数据,其结构可能并非传统的行列表格形式。例如,某些 api 会以键值对数组的形式返回数据,其中每个对象包含一个属性名(attributename)和对应的属性值(attributevalue)。当需要将这些动态的属性名转换为固定的列,并将其对应的属性值填充到这些列中时,传统的转换方法可能不够灵活。本教程将展示如何利用 pyspark 的强大能力,特别是结合 spark sql,高效地实现这种数据透视操作。

问题描述

假设我们从 Oracle REST API 获得以下 JSON 响应数据:

[    {        "attributeId": 300000000227671,        "attributeName": "BUSINESS_UNIT",        "attributeType": "Number",        "attributeValue": "300000207138371",        "timeBuildingBlockId": 300000300319699,        "timeBuildingBlockVersion": 1    },    {        "attributeId": 300000000226689,        "attributeName": "LOG_ID",        "attributeType": "Number",        "attributeValue": "300000001228038",        "timeBuildingBlockId": 300000300319699,        "timeBuildingBlockVersion": 1    }]

我们的目标是将 attributeName 为 ‘LOG_ID’ 和 ‘BUSINESS_UNIT’ 的 attributeValue 提取出来,并将其转换为以下表格形式:

LOG_ID BUSINESS_UNIT

300000001228038300000207138371

解决方案:使用 PySpark 和 Spark SQL

PySpark 提供了强大的数据处理能力,结合 Spark SQL,可以非常灵活地处理这种数据透视场景。核心思路是先将 JSON 数据加载到 DataFrame 中,然后利用 Spark SQL 的条件聚合函数(CASE WHEN 和 MAX)实现透视。

步骤一:加载 JSON 数据到 DataFrame

首先,我们需要将 JSON 响应数据加载到 PySpark DataFrame 中。假设 json_data 是包含上述 JSON 字符串的变量。

from pyspark.sql import SparkSession# 初始化 SparkSessionspark = SparkSession.builder.appName("JsonPivotTutorial").getOrCreate()sc = spark.sparkContext# 模拟 JSON 数据,实际应用中可能是从文件或API响应获取json_data = """[    {        "attributeId": 300000000227671,        "attributeName": "BUSINESS_UNIT",        "attributeType": "Number",        "attributeValue": "300000207138371",        "timeBuildingBlockId": 300000300319699,        "timeBuildingBlockVersion": 1    },    {        "attributeId": 300000000226689,        "attributeName": "LOG_ID",        "attributeType": "Number",        "attributeValue": "300000001228038",        "timeBuildingBlockId": 300000300319699,        "timeBuildingBlockVersion": 1    }]"""# 将 JSON 字符串转换为 RDD 并读取为 DataFrame# 注意:如果 json_data 是一个列表,可以直接使用 spark.createDataFrame()# 但如果是一个多行 JSON 字符串,或者需要更灵活地处理,spark.read.json(sc.parallelize([json_data])) 是一个有效方法df = spark.read.json(sc.parallelize([json_data]))# 查看原始 DataFrame 结构df.printSchema()df.show(truncate=False)

执行上述代码后,df 将包含解析后的 JSON 数据,每行对应 JSON 数组中的一个对象。

步骤二:创建临时视图

为了方便使用 Spark SQL 进行查询,我们将 DataFrame 注册为一个临时视图(Temporary View)。

df.createOrReplaceTempView("myTable")

现在,我们可以像操作传统数据库表一样,通过 SQL 语句查询 myTable。

步骤三:使用 Spark SQL 进行数据透视

透视的核心在于使用 CASE WHEN 语句根据 attributeName 的值选择对应的 attributeValue,并通过聚合函数(如 MAX)将每个组中的非空值提取出来。由于我们希望将所有相关属性(例如 LOG_ID 和 BUSINESS_UNIT,它们共享相同的 timeBuildingBlockId 和 timeBuildingBlockVersion)聚合到一行,因此需要对这些共享字段进行隐式分组。

result = spark.sql("""    SELECT        MAX(CASE WHEN attributeName = 'LOG_ID' THEN attributeValue END) AS LOG_ID,        MAX(CASE WHEN attributeName = 'BUSINESS_UNIT' THEN attributeValue END) AS BUSINESS_UNIT    FROM myTable    GROUP BY timeBuildingBlockId, timeBuildingBlockVersion -- 根据业务逻辑分组,确保同一逻辑实体的数据聚合到一行""")result.show()

SQL 逻辑解释:

CASE WHEN attributeName = ‘LOG_ID’ THEN attributeValue END: 这部分逻辑会检查 attributeName 是否为 ‘LOG_ID’。如果是,则返回对应的 attributeValue;否则返回 NULL。MAX(…) AS LOG_ID: 由于每个 attributeName 对应的 attributeValue 在原始数据中只出现一次(对于特定的逻辑实体),所以 MAX 函数会从 CASE WHEN 表达式生成的多个 NULL 值和一个非 NULL 值中选择那个非 NULL 的 attributeValue。这有效地将特定属性的 attributeValue 提升为新的列。GROUP BY timeBuildingBlockId, timeBuildingBlockVersion: 这一步至关重要。原始 JSON 数据中,LOG_ID 和 BUSINESS_UNIT 属于同一个逻辑实体,它们共享相同的 timeBuildingBlockId 和 timeBuildingBlockVersion。通过对这些字段进行分组,我们可以确保属于同一逻辑实体(即同一组)的所有属性值被聚合到同一行中。如果没有 GROUP BY,或者分组字段选择不当,可能会导致结果不正确(例如,所有属性聚合到一行,或者数据被错误地分割)。

输出结果:

+---------------+-------------------+|LOG_ID         |BUSINESS_UNIT      |+---------------+-------------------+|300000001228038|300000207138371|+---------------+-------------------+

这正是我们期望的透视结果。

注意事项与总结

动态列处理: 上述方法适用于列名(LOG_ID, BUSINESS_UNIT)已知的情况。如果 attributeName 的种类是动态变化的,并且需要在运行时确定列名,则需要结合 PySpark 的 DataFrame API 中的 pivot 函数,或者在 Spark SQL 中使用动态 SQL 生成技术。然而,对于固定的少量列,CASE WHEN 语句更直接和高效。聚合函数选择: 除了 MAX,也可以根据实际需求选择其他聚合函数,如 MIN、SUM、AVG 等。但对于这种将单个值提升为列的场景,MAX(或 MIN)是最常见的选择,因为它会忽略 NULL 值并返回唯一的非 NULL 值。分组键的重要性: GROUP BY 子句的选择至关重要。它决定了哪些原始行的数据会被聚合成新的一行。在上述示例中,timeBuildingBlockId 和 timeBuildingBlockVersion 共同标识了一个唯一的业务实体,因此它们是理想的分组键。务必根据您的数据模型和业务需求来确定正确的分组键。性能考量: 对于非常大的数据集,Spark SQL 能够有效地并行处理数据。然而,过多的 CASE WHEN 表达式或过于复杂的分组逻辑可能会影响性能。在实际应用中,应根据数据量和集群资源进行调优。

通过 PySpark 和 Spark SQL 的结合,我们可以灵活高效地处理各种复杂的数据转换需求,将非结构化或半结构化的 JSON 数据转换为易于分析的表格格式。

以上就是使用 PySpark 将 JSON 属性数据透视为表格列的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1368066.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
Python源码实现在线视频转字幕 利用ASR模型的Python源码对接流程
上一篇 2025年12月14日 08:28:05
Python函数如何用闭包保存函数内部状态 Python函数闭包基础用法的入门操作指南​
下一篇 2025年12月14日 08:28:19

相关推荐

  • 深入理解 Laravel Session::put:避免常见陷阱与实现表单限流

    本文旨在深入探讨 laravel 框架中 `session::put` 方法的正确用法及其常见误区。针对用户在实现表单提交限流时遇到的问题,详细阐述了 `session::put` 必须提供键值对的原理,并提供了如何在控制器中利用会话机制有效防止重复提交的实战代码示例。通过本文,读者将掌握 lara…

    2026年5月10日
    000
  • jQuery对象类型判断机制详解:toType函数如何精准识别对象类型?

    深入解析jquery对象类型判断机制:totype函数详解 本文将深入剖析jQuery中用于精准识别对象类型的toType函数,并详细解释其核心代码片段。该函数旨在判断传入对象的类型并返回其类型字符串。 核心代码如下: var class2type = {};var toString = class…

    2026年5月10日
    000
  • JavaScript中为动态列表元素创建唯一悬停描述的教程

    本教程旨在解决如何为动态生成的列表或数组元素分配唯一悬停描述(tooltip)的问题。文章将深入探讨使用javascript对象和map数据结构来高效地管理名称与描述的映射关系,并提供具体的代码示例,以实现每个列表项在鼠标悬停时显示不同的自定义信息,同时兼顾性能与数据顺序的需求。 在网页开发中,我们…

    2026年5月10日
    000
  • PHP中通过键名高效关联与输出多维数组数据

    本教程旨在解决php开发中常见的数据关联与输出问题,特别是当需要将不同数组中通过共同键名关联的数据进行整合展示时。文章将详细阐述如何利用foreach循环的键值对特性,结合array_key_exists函数,实现从多个数组中提取并组合相关信息,从而避免不必要的嵌套循环,提升代码的清晰度和执行效率。…

    2026年5月10日
    000
  • 怎样用Golang实现一个简单的键值存储 基于文件持久化方案

    怎样用Golang实现一个简单的键值存储 基于文件持久化方案怎样用Golang实现一个简单的键值存储 基于文件持久化方案怎样用Golang实现一个简单的键值存储 基于文件持久化方案怎样用Golang实现一个简单的键值存储 基于文件持久化方案

    要实现一个简单的键值存储系统,需结合golang与文件持久化方案。1. 使用map[string]string作为内存数据结构,选择json或gob进行序列化;2. 围绕map实现crud操作,写入后立即或定时刷新到磁盘,并在启动时加载数据;3. 文件策略可选每次写入刷盘、定时异步刷盘或日志记录变更…

    2026年5月10日 用户投稿
    000
  • python中怎么删除字典中的键值对_Python删除字典元素的方法

    删除字典键值对有四种方法:del语句删除指定键,pop()删除键并返回值,popitem()随机删除键值对,clear()清空字典。 在 Python 中,删除字典中的键值对主要有几种方式:使用 del 语句直接删除指定键,利用 pop() 方法删除指定键并获取其对应的值,或者通过 popitem(…

    2026年5月10日
    000
  • C++ 数据结构指南:理清复杂数据组织之道

    答案: c++++ 数据结构是组织和管理数据的构建块,优化检索和处理。常见结构:数组:有序集合,通过索引访问向量:动态数组,快速插入和删除链表:灵活插入和删除堆栈:lifo 原则队列:fifo 原则树:分层结构哈希表:快速键值查找应用: 数据存储、算法设计、图形处理、人工智能等。实战案例: 使用学生…

    2026年5月10日
    000
  • php实现哪些功能

    PHP是一种通用脚本语言,可用来实现广泛的功能,包括:动态Web开发:生成响应用户请求的动态 веб页面。内容管理系统(CMS):构建允许用户管理网站内容的CMS。电子商务:开发具有购物车、订单处理和支付网关集成的电子商务网站。服务器端编程:编写命令行脚本和工具。文件操作:创建、读取、写入和删除文件…

    2026年5月10日
    000
  • 从LocalStorage中获取并显示特定JSON对象属性的教程

    本文详细介绍了如何从浏览器localstorage中检索存储为json字符串的复杂数据,并提取其中的特定属性值以显示在网页元素中。核心方法是使用`json.parse()`将存储的字符串转换回javascript对象,然后通过点或方括号语法访问所需属性。文章还提供了示例代码和错误处理建议,确保数据获…

    2026年5月10日
    100
  • JavaScript数据结构实现_javascript算法基础

    JavaScript中常用数据结构包括栈、链表和字典:1. 栈利用数组的push和pop实现LIFO,适用于括号匹配;2. 链表由节点组成,插入删除高效,适合频繁修改场景;3. 字典用对象实现键值对存储,常用于频率统计;4. 二分查找在有序数组中以O(log n)效率查找目标值,需数组已排序。掌握这…

    2026年5月10日
    000
  • python中del是什么意思 python中del删除对象的用法解析

    在python中,del用于删除对象的引用。1)删除变量:del x会移除变量x的引用,导致x不再存在。2)删除列表元素:del my_list[2]会删除索引为2的元素。3)删除列表切片:del my_list[1:3]会删除指定范围内的元素。4)删除字典键值对:del my_dict[&#821…

    2026年5月10日
    000
  • Laravel Session::put 正确用法详解与常见误区规避

    本文详细探讨了 laravel 中 `session::put` 方法的正确用法,特别指出在仅提供键名而未指定值时可能导致会话数据未被正确设置的问题。通过示例代码,阐述了如何为会话数据赋予明确的值,并演示了如何正确地检查和获取会话数据,以确保会话管理功能按预期工作,有效避免常见的会话操作错误。 La…

    2026年5月10日
    000
  • PHP中批量为嵌套数组元素添加公共属性的教程

    本教程将详细介绍在php中如何高效地为包含多个关联数组的集合中的每个子数组添加一个或多个新的公共键值对。我们将探讨使用循环和数组合并函数实现这一目标的方法,并提供清晰的代码示例,帮助开发者处理此类数据结构转换。 在PHP开发中,我们经常会遇到处理复杂数据结构的需求,其中一种常见场景是拥有一个由多个关…

    2026年5月10日
    000
  • 如何通过URL查询参数在不同HTML页面间传递数据

    本教程详细阐述了如何在不同HTML页面之间传递数据,特别聚焦于使用URL查询参数的方法。我们将通过一个点餐系统示例,演示如何从一个菜单页面获取商品名称和价格,并通过点击按钮将其安全地传递到支付页面,并在支付页面自动填充相应的表单输入框。文章涵盖了数据编码、URL构建以及在目标页面解析和使用这些数据,…

    2026年5月10日
    100
  • 掌握Python中嵌套列表与字典的数据访问技巧

    本文详细介绍了在Python中如何高效且准确地访问复杂嵌套数据结构(特别是包含列表和字典的多层JSON数据)中的特定值。通过具体示例,文章解释了直接索引列表元素和字典键的正确方法,避免了常见的类型错误,并提供了处理多条记录和潜在数据缺失的健壮性建议,旨在帮助开发者熟练提取深层数据。 理解嵌套数据结构…

    2026年5月10日
    000
  • php数据整理怎么按日期字段分组汇总_php按日期分组统计与时间段合并技巧

    可使用SQL或PHP对数据按日期分组汇总。1、通过MySQL的DATE()、YEAR()、MONTH()函数在查询时按日、月、年分组统计;2、在PHP中遍历数组,以date(‘Y-m-d’)等格式化日期作为键进行归类;3、按周可使用date(‘o-W’…

    2026年5月10日
    000
  • 使用MySQL和PHP高效获取最热门数据条目:统计与排序实践

    本教程详细阐述如何利用mysql的聚合函数和php的mysqli扩展,高效地从数据库中查询并排序出最常出现的数据条目。文章将通过一个具体的案例,指导读者构建正确的sql查询,并结合php进行数据处理和调试,避免常见的sql语法错误和php运行时问题,从而准确获取按频率降序排列的热门数据。 在Web开…

    2026年5月10日
    000
  • SQL查询:精确判断事件过期,结合日期与时间列

    本文旨在解决数据库中事件过期判断不精确的问题,特别是当事件的过期日期和时间分别存储在不同列时。我们将探讨两种主流的sql查询策略:一种是利用逻辑运算符`or`和`and`进行分情况判断,另一种是通过合并日期和时间列为单一时间戳进行直接比较。文章将详细阐述每种方法的实现方式、适用场景及相关注意事项,确…

    2026年5月10日
    100
  • 怎样使用C++标准库容器 vector map set核心操作

    c++++标准库中的vector、map和set分别适用于动态数组、键值对存储和唯一元素集合场景。1. vector支持动态大小数组,常用操作包括push_back、emplace_back添加元素,at或下标访问,erase删除元素,reserve预分配内存而不改变大小,resize则改变元素数量…

    2026年5月10日
    000
  • HTML表单如何实现白名单功能?怎样只允许授权用户?

    要实现%ignore_a_1%的白名单功能并确保只有授权用户操作,核心答案是必须依赖后端服务器进行严格的身份认证、会话管理、授权检查和数据验证,前端仅能提供用户体验层面的初步提示而不能保障安全;具体而言,首先通过用户身份认证(如用户名/密码或oauth)确认用户身份,服务器创建会话并返回标识符,后续…

    2026年5月10日
    800

发表回复

登录后才能评论
关注微信