使用 PySpark 将 JSON 属性数据透视为表格列

使用 PySpark 将 JSON 属性数据透视为表格列

本教程详细介绍了如何使用 PySpark 将 Oracle REST API 返回的 JSON 数组数据(其中属性名和属性值以键值对形式存在)转换为结构化的表格格式。通过 PySpark 读取 JSON 数据并结合 Spark SQL 的 MAX(CASE WHEN …) 语句,实现将动态属性名称(如 ‘LOG_ID’ 和 ‘BUSINESS_UNIT’)透视为独立的列,从而方便数据分析和处理。

在数据集成和处理过程中,我们经常会遇到来自 rest api 的响应数据,其结构可能并非传统的行列表格形式。例如,某些 api 会以键值对数组的形式返回数据,其中每个对象包含一个属性名(attributename)和对应的属性值(attributevalue)。当需要将这些动态的属性名转换为固定的列,并将其对应的属性值填充到这些列中时,传统的转换方法可能不够灵活。本教程将展示如何利用 pyspark 的强大能力,特别是结合 spark sql,高效地实现这种数据透视操作。

问题描述

假设我们从 Oracle REST API 获得以下 JSON 响应数据:

[    {        "attributeId": 300000000227671,        "attributeName": "BUSINESS_UNIT",        "attributeType": "Number",        "attributeValue": "300000207138371",        "timeBuildingBlockId": 300000300319699,        "timeBuildingBlockVersion": 1    },    {        "attributeId": 300000000226689,        "attributeName": "LOG_ID",        "attributeType": "Number",        "attributeValue": "300000001228038",        "timeBuildingBlockId": 300000300319699,        "timeBuildingBlockVersion": 1    }]

我们的目标是将 attributeName 为 ‘LOG_ID’ 和 ‘BUSINESS_UNIT’ 的 attributeValue 提取出来,并将其转换为以下表格形式:

LOG_ID BUSINESS_UNIT

300000001228038300000207138371

解决方案:使用 PySpark 和 Spark SQL

PySpark 提供了强大的数据处理能力,结合 Spark SQL,可以非常灵活地处理这种数据透视场景。核心思路是先将 JSON 数据加载到 DataFrame 中,然后利用 Spark SQL 的条件聚合函数(CASE WHEN 和 MAX)实现透视。

步骤一:加载 JSON 数据到 DataFrame

首先,我们需要将 JSON 响应数据加载到 PySpark DataFrame 中。假设 json_data 是包含上述 JSON 字符串的变量。

from pyspark.sql import SparkSession# 初始化 SparkSessionspark = SparkSession.builder.appName("JsonPivotTutorial").getOrCreate()sc = spark.sparkContext# 模拟 JSON 数据,实际应用中可能是从文件或API响应获取json_data = """[    {        "attributeId": 300000000227671,        "attributeName": "BUSINESS_UNIT",        "attributeType": "Number",        "attributeValue": "300000207138371",        "timeBuildingBlockId": 300000300319699,        "timeBuildingBlockVersion": 1    },    {        "attributeId": 300000000226689,        "attributeName": "LOG_ID",        "attributeType": "Number",        "attributeValue": "300000001228038",        "timeBuildingBlockId": 300000300319699,        "timeBuildingBlockVersion": 1    }]"""# 将 JSON 字符串转换为 RDD 并读取为 DataFrame# 注意:如果 json_data 是一个列表,可以直接使用 spark.createDataFrame()# 但如果是一个多行 JSON 字符串,或者需要更灵活地处理,spark.read.json(sc.parallelize([json_data])) 是一个有效方法df = spark.read.json(sc.parallelize([json_data]))# 查看原始 DataFrame 结构df.printSchema()df.show(truncate=False)

执行上述代码后,df 将包含解析后的 JSON 数据,每行对应 JSON 数组中的一个对象。

步骤二:创建临时视图

为了方便使用 Spark SQL 进行查询,我们将 DataFrame 注册为一个临时视图(Temporary View)。

df.createOrReplaceTempView("myTable")

现在,我们可以像操作传统数据库表一样,通过 SQL 语句查询 myTable。

步骤三:使用 Spark SQL 进行数据透视

透视的核心在于使用 CASE WHEN 语句根据 attributeName 的值选择对应的 attributeValue,并通过聚合函数(如 MAX)将每个组中的非空值提取出来。由于我们希望将所有相关属性(例如 LOG_ID 和 BUSINESS_UNIT,它们共享相同的 timeBuildingBlockId 和 timeBuildingBlockVersion)聚合到一行,因此需要对这些共享字段进行隐式分组。

result = spark.sql("""    SELECT        MAX(CASE WHEN attributeName = 'LOG_ID' THEN attributeValue END) AS LOG_ID,        MAX(CASE WHEN attributeName = 'BUSINESS_UNIT' THEN attributeValue END) AS BUSINESS_UNIT    FROM myTable    GROUP BY timeBuildingBlockId, timeBuildingBlockVersion -- 根据业务逻辑分组,确保同一逻辑实体的数据聚合到一行""")result.show()

SQL 逻辑解释:

CASE WHEN attributeName = ‘LOG_ID’ THEN attributeValue END: 这部分逻辑会检查 attributeName 是否为 ‘LOG_ID’。如果是,则返回对应的 attributeValue;否则返回 NULL。MAX(…) AS LOG_ID: 由于每个 attributeName 对应的 attributeValue 在原始数据中只出现一次(对于特定的逻辑实体),所以 MAX 函数会从 CASE WHEN 表达式生成的多个 NULL 值和一个非 NULL 值中选择那个非 NULL 的 attributeValue。这有效地将特定属性的 attributeValue 提升为新的列。GROUP BY timeBuildingBlockId, timeBuildingBlockVersion: 这一步至关重要。原始 JSON 数据中,LOG_ID 和 BUSINESS_UNIT 属于同一个逻辑实体,它们共享相同的 timeBuildingBlockId 和 timeBuildingBlockVersion。通过对这些字段进行分组,我们可以确保属于同一逻辑实体(即同一组)的所有属性值被聚合到同一行中。如果没有 GROUP BY,或者分组字段选择不当,可能会导致结果不正确(例如,所有属性聚合到一行,或者数据被错误地分割)。

输出结果:

+---------------+-------------------+|LOG_ID         |BUSINESS_UNIT      |+---------------+-------------------+|300000001228038|300000207138371|+---------------+-------------------+

这正是我们期望的透视结果。

注意事项与总结

动态列处理: 上述方法适用于列名(LOG_ID, BUSINESS_UNIT)已知的情况。如果 attributeName 的种类是动态变化的,并且需要在运行时确定列名,则需要结合 PySpark 的 DataFrame API 中的 pivot 函数,或者在 Spark SQL 中使用动态 SQL 生成技术。然而,对于固定的少量列,CASE WHEN 语句更直接和高效。聚合函数选择: 除了 MAX,也可以根据实际需求选择其他聚合函数,如 MIN、SUM、AVG 等。但对于这种将单个值提升为列的场景,MAX(或 MIN)是最常见的选择,因为它会忽略 NULL 值并返回唯一的非 NULL 值。分组键的重要性: GROUP BY 子句的选择至关重要。它决定了哪些原始行的数据会被聚合成新的一行。在上述示例中,timeBuildingBlockId 和 timeBuildingBlockVersion 共同标识了一个唯一的业务实体,因此它们是理想的分组键。务必根据您的数据模型和业务需求来确定正确的分组键。性能考量: 对于非常大的数据集,Spark SQL 能够有效地并行处理数据。然而,过多的 CASE WHEN 表达式或过于复杂的分组逻辑可能会影响性能。在实际应用中,应根据数据量和集群资源进行调优。

通过 PySpark 和 Spark SQL 的结合,我们可以灵活高效地处理各种复杂的数据转换需求,将非结构化或半结构化的 JSON 数据转换为易于分析的表格格式。

以上就是使用 PySpark 将 JSON 属性数据透视为表格列的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1368066.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 08:28:05
下一篇 2025年12月14日 08:28:19

相关推荐

  • 使用 PySpark 从 JSON 对象中选择并透视数据

    本文档介绍了如何使用 PySpark 从包含属性和值的 JSON 对象中提取特定列,并将其透视为所需格式。通过创建 DataFrame 和使用 Spark SQL,我们可以灵活地选择和转换数据,最终得到以指定属性名作为列名的结果。本文提供详细步骤和示例代码,帮助你轻松完成数据提取和转换任务。 使用 …

    2025年12月14日
    000
  • Python函数如何让函数返回一个简单的列表 Python函数返回列表的基础实现方法​

    Python函数通过return语句返回列表,可直接返回列表字面量或变量,适用于收集处理结果、过滤数据等场景,返回空列表表示无结果,更友好;也可根据需求选择元组、集合或字典等结构。 Python函数返回一个列表,其实就是通过 return 语句把一个列表对象送出去。这和返回其他类型的数据没啥区别,只…

    2025年12月14日
    000
  • Python字典迭代与值修改详解

    在Python中,字典是一种非常常用的数据结构。在处理字典时,经常需要迭代字典中的键值对,并根据某些条件修改字典的值。 关键在于理解如何正确地引用原始字典,以便更新其值,而不是简单地修改循环中的局部变量。 下面介绍一种常用的方法,通过键来直接引用原始字典,从而实现值的更新。 my_dict = {‘…

    2025年12月14日
    000
  • 使用Python迭代并修改字典的值

    本文介绍了如何在Python中迭代字典,并根据特定条件修改其值。重点在于理解字典的items()方法以及如何通过键来直接更新字典中的值,避免在迭代过程中产生意外行为。通过示例代码,读者可以掌握修改字典值的正确方法,并了解在迭代修改字典时需要注意的关键点。 在Python中,字典是一种非常灵活的数据结…

    2025年12月14日
    000
  • Python函数怎样用args 接收任意数量的位置参数 Python函数可变位置参数的使用技巧​

    使用args可接收任意数量的位置参数,将其打包为元组,适用于参数数量不确定的场景。在函数定义中,args应置于普通参数之后,可与普通参数和kwargs混合使用,但需注意参数顺序。*args提升函数通用性,但可能降低可读性,当参数语义明确或数据为逻辑集合时,建议使用命名参数、列表传参或kwargs替代…

    2025年12月14日
    000
  • 使用 AWS Lambda 和 API Gateway 正确访问查询参数

    本文旨在帮助开发者解决在使用 AWS Lambda 函数(Python 3.11)结合 API Gateway 触发器时,无法正确访问查询参数的问题。通过示例代码和详细解释,本文将指导你如何从 event 对象中提取查询参数,并提供最佳实践建议,确保 Lambda 函数能够稳定可靠地处理 API 请…

    2025年12月14日
    000
  • Python命令如何在脚本中获取命令行参数 Python命令参数获取的简单教程

    最直接的方式是使用sys.argv,适用于简单场景;更推荐使用argparse模块,适用于复杂场景。1. 使用sys.argv时,参数以列表形式存储,sys.argv[0]为脚本名,后续元素为传入参数,但所有参数均为字符串类型,需手动转换,且无默认值、无帮助信息、难以处理可选参数和错误,代码可读性差…

    2025年12月14日
    000
  • Python如何操作CouchDB?couchdb-python

    python操作couchdb最直接的工具是couchdb-python库,1. 首先通过pip install couchdb安装库;2. 使用couchdb.server连接到couchdb服务器;3. 选择或创建数据库;4. 通过save()方法创建文档;5. 通过文档id读取文档;6. 更新…

    2025年12月14日
    000
  • Python函数如何给函数动态添加属性 Python函数动态属性设置的基础操作指南​

    是的,python函数可以动态添加属性,1. 可用于存储元数据、缓存或状态标记;2. 操作方式为通过点语法直接赋值;3. 常见于装饰器、框架设计中;4. 需避免命名冲突、注意可读性与类型检查;5. 最佳实践包括使用functools.wraps、明确用途并加强文档化,此机制体现了python“一切皆…

    2025年12月14日
    000
  • Python怎样实现数据平滑处理?移动平均法

    移动平均法在python中通过pandas的rolling().mean()实现,适用于去除短期波动、揭示长期趋势;2. 其适用场景包括金融分析、传感器数据处理、销售预测、气象研究和网站流量分析;3. 优点是简单易懂、易于实现、有效降噪和突出趋势,缺点是存在滞后性、对极端值敏感、损失数据点且无法预测…

    2025年12月14日
    000
  • Python中高效访问JSON嵌套列表字典数据的技巧

    本文旨在教授如何在Python中有效地解析和访问复杂JSON结构中深度嵌套的列表和字典数据。通过理解JSON的层级关系,并结合正确的列表索引和字典键访问方法,您可以精准地提取所需的数据,无论是通过直接路径访问还是通过迭代遍历动态数据。 JSON(JavaScript Object Notation)…

    2025年12月14日
    000
  • Python中高效访问多层嵌套JSON/字典数据

    针对Python中处理复杂JSON或字典结构时,如何准确高效地提取深层嵌套数据的问题,本文将详细介绍直接索引、循环遍历以及使用json_normalize等多种方法。通过实例代码,读者将掌握如何定位并提取列表中的字典值,避免常见的索引错误,从而提升数据处理的准确性和效率。 1. 理解多层嵌套数据结构…

    2025年12月14日
    000
  • 掌握Python中嵌套列表与字典的数据访问技巧

    本文详细介绍了在Python中如何高效且准确地访问复杂嵌套数据结构(特别是包含列表和字典的多层JSON数据)中的特定值。通过具体示例,文章解释了直接索引列表元素和字典键的正确方法,避免了常见的类型错误,并提供了处理多条记录和潜在数据缺失的健壮性建议,旨在帮助开发者熟练提取深层数据。 理解嵌套数据结构…

    2025年12月14日
    000
  • 从 Pandas DataFrame 中高效获取单列的标量值

    本文旨在介绍如何从 Pandas DataFrame 的某一列中高效地提取单个标量值,尤其是在该列所有行都具有相同值的情况下。我们将探讨多种方法,并分析它们的性能差异,以便在处理大型 DataFrame 时做出明智的选择。重点推荐使用索引直接获取第一个值,避免不必要的计算,从而提升代码效率。 在 P…

    2025年12月14日
    000
  • Python函数如何在函数中使用 switch 语句 Python函数中多条件判断的基础应用​

    答案:Python虽无switch语句,但可用多种方式模拟其功能。首先,if-elif-else结构适用于简单场景,但分支多时冗长难维护;其次,字典映射将条件值作为键、函数作为值,实现清晰且易扩展的多分支逻辑,尤其适合大量条件判断;结合lambda表达式的函数式编程进一步简化代码,提升简洁性与灵活性…

    2025年12月14日
    000
  • Python怎样操作Apache Kafka?kafka-python

    答案是使用kafka-python库操作kafka。1. 安装kafka-python库:pip install kafka-python;2. 创建生产者发送消息,指定bootstrap_servers和序列化方式,并发送消息到指定主题;3. 创建消费者接收消息,设置auto_offset_res…

    2025年12月14日
    000
  • Python函数怎样在函数中使用 for 循环 Python函数中循环应用的入门教程​

    在python函数中使用for循环是实现数据处理和逻辑封装的核心方式,1. 可将for循环直接嵌入函数体内部以遍历传入的可迭代对象,如列表、元组、字典等;2. 结合条件语句可实现筛选与累加等逻辑,提升代码复用性;3. 需注意return语句位置,避免过早退出循环;4. 循环内定义的变量为局部变量,函…

    2025年12月14日
    000
  • 如何在Pandas DataFrame中查找并分析值组合(对与三元组)

    本教程详细介绍了如何使用Python的Pandas库和itertools模块,从DataFrame中提取特定列的无序值组合(如对和三元组),并计算这些组合在不同分类组中的出现次数及其相对百分比。通过groupby、agg、explode、value_counts和transform等操作,实现对复杂…

    2025年12月14日
    000
  • Pandas DataFrame中无序组合(对与三元组)的统计与分析

    本文详细介绍了如何在Pandas DataFrame中统计指定列的无序组合(包括对和三元组)。通过结合使用Python的itertools模块生成组合、Pandas的groupby、explode、value_counts和transform等功能,实现对不同分类下组合的出现次数进行计数,并计算其相…

    2025年12月14日
    000
  • 在 Pandas DataFrame 中查找并分析无序组合(对和三元组)

    本文详细介绍了如何在 Pandas DataFrame 中高效查找、计数并分析指定列中的无序组合(如对和三元组)。通过利用 Python 的 itertools 库生成组合,并结合 Pandas 的 groupby、agg、explode、value_counts 和 transform 等功能,我…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信