使用 PySpark 从 JSON 对象中选择并透视数据

程序猿 • 2025年12月14日 08:25:15 • 好文分享 • 阅读 0

本文档介绍了如何使用 PySpark 从包含属性和值的 JSON 对象中提取特定列，并将其透视为所需格式。通过创建 DataFrame 和使用 Spark SQL，我们可以灵活地选择和转换数据，最终得到以指定属性名作为列名的结果。本文提供详细步骤和示例代码，帮助你轻松完成数据提取和转换任务。

使用 PySpark 处理 JSON 数据并进行透视

在数据处理中，经常需要从 JSON 数据中提取特定字段，并将其转换为更易于分析的格式。当 JSON 数据包含具有属性和值的对象数组时，例如 Oracle REST API 的响应，我们可以使用 PySpark 来选择所需的列，并将其透视为以属性名作为列名的形式。

以下是如何使用 PySpark 实现此目标的步骤：

1. 创建 DataFrame

首先，你需要使用 JSON 数据创建一个 DataFrame。假设你已经将 JSON 数据存储在变量 json_data 中，可以使用以下代码创建 DataFrame：

from pyspark.sql import SparkSession# 创建 SparkSessionspark = SparkSession.builder.appName("JSONPivot").getOrCreate()df = spark.read.json(spark.sparkContext.parallelize([json_data]))# 示例 JSON 数据 (替换为你实际的数据)json_data = """[    {        "attributeId": 300000000227671,        "attributeName": "BUSINESS_UNIT",        "attributeType": "Number",        "attributeValue": "300000207138371",        "timeBuildingBlockId": 300000300319699,        "timeBuildingBlockVersion": 1    },    {        "attributeId": 300000000227689,        "attributeName": "LOG_ID",        "attributeType": "Number",        "attributeValue": "300000001228038",        "timeBuildingBlockId": 300000300319699,        "timeBuildingBlockVersion": 1    }]"""df = spark.read.json(spark.sparkContext.parallelize([json_data]))df.printSchema()df.show()

这段代码首先创建了一个 SparkSession，这是与 Spark 集群交互的入口点。然后，它使用 spark.read.json() 方法从 json_data 读取 JSON 数据，并将其转换为 DataFrame。spark.sparkContext.parallelize([json_data]) 用于将 JSON 数据转换为 RDD，然后 spark.read.json() 可以从 RDD 读取数据。 df.printSchema() 打印 DataFrame 的结构，df.show() 显示 DataFrame 的内容。

2. 创建临时视图

为了能够使用 Spark SQL 查询 DataFrame，需要创建一个临时视图：

df.createOrReplaceTempView("myTable")

这将创建一个名为 “myTable” 的临时视图，你可以使用 Spark SQL 查询它。

3. 使用 Spark SQL 进行透视

现在，可以使用 Spark SQL 查询临时视图，以提取所需的列并进行透视。以下是一个示例查询，用于提取 “LOG_ID” 和 “BUSINESS_UNIT” 的 attributeValue：

result = spark.sql("""    SELECT        MAX(CASE WHEN attributeName = 'LOG_ID' THEN attributeValue END) AS LOG_ID,        MAX(CASE WHEN attributeName = 'BUSINESS_UNIT' THEN attributeValue END) AS BUSINESS_UNIT    FROM myTable""")result.show()

这个 SQL 查询使用 CASE WHEN 语句来根据 attributeName 的值选择相应的 attributeValue。 MAX() 函数用于处理可能存在多个具有相同 attributeName 的情况，并确保每个属性只有一个值。AS 关键字用于为结果列指定别名。

完整代码示例

from pyspark.sql import SparkSession# 创建 SparkSessionspark = SparkSession.builder.appName("JSONPivot").getOrCreate()# 示例 JSON 数据 (替换为你实际的数据)json_data = """[    {        "attributeId": 300000000227671,        "attributeName": "BUSINESS_UNIT",        "attributeType": "Number",        "attributeValue": "300000207138371",        "timeBuildingBlockId": 300000300319699,        "timeBuildingBlockVersion": 1    },    {        "attributeId": 300000000227689,        "attributeName": "LOG_ID",        "attributeType": "Number",        "attributeValue": "300000001228038",        "timeBuildingBlockId": 300000300319699,        "timeBuildingBlockVersion": 1    }]"""# 创建 DataFramedf = spark.read.json(spark.sparkContext.parallelize([json_data]))# 创建临时视图df.createOrReplaceTempView("myTable")# 使用 Spark SQL 进行透视result = spark.sql("""    SELECT        MAX(CASE WHEN attributeName = 'LOG_ID' THEN attributeValue END) AS LOG_ID,        MAX(CASE WHEN attributeName = 'BUSINESS_UNIT' THEN attributeValue END) AS BUSINESS_UNIT    FROM myTable""")# 显示结果result.show()# 停止 SparkSessionspark.stop()

注意事项

确保你的 JSON 数据格式正确，并且包含所需的 attributeName 和 attributeValue 字段。根据你的实际需求修改 SQL 查询，以提取所需的列和进行透视。如果 JSON 数据非常大，可以考虑使用分区来提高查询性能。在实际应用中，可能需要处理缺失值或错误数据。可以使用 fillna() 或 filter() 方法来处理这些情况。记得在完成操作后停止 SparkSession，释放资源。

总结

通过使用 PySpark 创建 DataFrame 和使用 Spark SQL，我们可以轻松地从 JSON 对象中选择和透视数据。这种方法非常灵活，可以根据你的实际需求进行定制。希望本文档能够帮助你解决数据提取和转换问题。

以上就是使用 PySpark 从 JSON 对象中选择并透视数据的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1368009.html

oracle

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Python函数如何判断一个函数是否已经存在 Python函数存在性检查的基础方法

上一篇 2025年12月14日 08:24:58

运行Python脚本怎样在执行时输入用户信息运行Python脚本的交互输入实用方法

下一篇 2025年12月14日 08:25:19

好文分享

java怎么编译运行.html_java编译运行.html方法【教程】

Java程序的编译运行与HTML无关，需使用JDK。1. 编写HelloWorld.java文件；2. 命令行执行javac HelloWorld.java生成.class文件；3. 执行java HelloWorld运行程序。注意：HTML是网页标记语言，不能直接运行Java代码，勿将二者混淆。确…

程序猿
2025年12月23日
0000
好文分享

html文档中含有java怎么运行_html含java运行方法【教程】

现代浏览器不支持Java Applet，推荐通过JavaScript调用Java后端服务或使用WebAssembly运行Java代码。如果您在HTML文档中嵌入了Java代码，但发现无法正常运行，这通常是因为现代浏览器不再支持Java小程序（Applet）或相关插件。以下是几种实现HTML中Jav…

程序猿
2025年12月23日
0000
好文分享

怎么运行html的applet小程序_运行html applet小程序步骤【指南】

现代浏览器已不再默认支持Java Applet，需通过安装JRE、启用插件、使用支持NPAPI的旧版浏览器（如Firefox 52.9 ESR）、调整Java安全级别至中，并将网站添加到例外站点列表方可运行。如果您在尝试运行HTML中的Applet小程序时遇到问题，可能是因为现代浏览器已不再默认支…

程序猿
2025年12月23日
0000
好文分享

使用BeautifulSoup和JSON有效抓取动态加载的网页表格数据

本教程旨在解决使用BeautifulSoup抓取网页表格时，因数据动态加载导致部分内容缺失的问题。通过分析网页背后的API请求，直接获取并解析JSON数据源，再结合BeautifulSoup提取的HTML结构信息，最终实现完整且准确的数据抓取。文章将提供详细的代码示例和实现步骤。理解网页动态内容与…

程序猿
2025年12月23日
4000
好文分享

解决BeautifulSoup爬取网页表格中动态内容缺失问题

本文旨在解决使用BeautifulSoup爬取网页表格时，因部分数据通过JavaScript动态加载导致内容缺失的问题。通过详细分析Oracle云定价页面的案例，教程将指导读者如何识别并获取隐藏在JSON API中的动态数据，并将其与BeautifulSoup解析的静态HTML内容有效整合，最终构建…

程序猿
2025年12月23日
0000
好文分享

Java GUI在Web部署中的挑战与现代解决方案

本文旨在澄清Java Web Start（JWS）在Web页面内运行GUI的常见误解，指出JWS用于本地应用启动而非嵌入式Web GUI。文章将探讨JWS的局限性及其被Oracle弃用的原因，介绍OpenWebStart作为其开源替代方案，并重点推荐Vaadin Flow作为使用纯Java构建真正W…

程序猿
2025年12月22日
0000
好文分享

Java GUI Web部署策略与现代替代方案

本文旨在澄清Java GUI应用在Web页面中直接运行的常见误区，特别是关于Java Web Start (JWS) 的作用与局限性。我们将探讨JWS的实际工作机制、其被Oracle废弃的原因，并介绍OpenWebStart作为现有JWS应用的替代方案。此外，文章将重点推荐Vaadin Flow等现…

程序猿
2025年12月22日
3000
好文分享

HTML表单如何实现白名单功能？怎样只允许授权用户？

要实现%ignore_a_1%的白名单功能并确保只有授权用户操作，核心答案是必须依赖后端服务器进行严格的身份认证、会话管理、授权检查和数据验证，前端仅能提供用户体验层面的初步提示而不能保障安全；具体而言，首先通过用户身份认证（如用户名/密码或oauth）确认用户身份，服务器创建会话并返回标识符，后续…

程序猿
2025年12月22日
0000
好文分享

表单中的ERP怎么连接？如何对接企业资源计划系统？

将表单数据连接到erp系统的核心是打通数据流，确保信息能从前端无缝流入企业核心系统，主要通过api接口集成、中间件/ipaas、文件导入导出和rpa四种方式实现；其中api集成因其实时性高、安全性好、可扩展性强，成为现代系统的首选方案，尤其适用于支持开放api的erp系统；当业务涉及多系统复杂集成时…

程序猿
2025年12月22日
1000
好文分享

HTML如何实现文本加密？怎么隐藏敏感内容？

纯前端技术无法真正加密或安全隐藏敏感内容，因为html、css和javascript均在客户端运行，源代码和数据可被用户通过开发者工具轻易查看；2. 所谓“隐藏”如display: none、hidden属性或javascript移除dom，仅是视觉上的屏蔽，数据仍存在于页面中；3. 真正的安全必须…

程序猿
2025年12月22日
0000
好文分享

表单中的智能合约怎么集成？如何自动执行表单条款？

要实现表单数据与智能合约的精准匹配及条款的自动执行，核心在于通过后端服务进行数据类型转换、多层校验并严格遵循abi规范调用合约；智能合约通过内置条件逻辑或借助chainlink keepers等自动化服务实现触发执行；需应对gas成本、安全风险、异步体验和预言机依赖等挑战，采用layer 2、元交易…

程序猿
2025年12月22日
0000
好文分享

想提升IT技能？哪些含金量高的认证值得考？

it职业发展：高含金量认证助您成功想在IT领域提升竞争力？选择合适的认证至关重要。本文推荐几项国内外认可度高的IT认证，助您在职业道路上更进一步。热门认证推荐： 1. 高级软件设计师（软考高级）：国内IT领域含金量最高的认证之一。涵盖软件工程、项目管理及计算机基础知识。证明您在软件设计和开发方…

程序猿
2025年12月22日
0000
好文分享

解决node-oracledb Thin模式下不支持0x939密码验证器错误

本文旨在解决使用node-oracledb在thin模式下连接oracle数据库时遇到的“密码验证器类型0x939不受支持”错误。该问题通常源于数据库使用了较旧的密码哈希算法。教程将详细介绍针对不同oracle数据库版本的解决方案，包括启用thick模式、调整数据库参数以及重置用户密码等，以确保no…

程序猿
2025年12月21日
1000
好文分享

数据持久化方案比较

文件存储适合轻量级需求，实现简单但并发和查询能力弱；2. 关系型数据库保障一致性与复杂查询，适用于强一致性系统；3. NoSQL 数据库高扩展高性能，适合动态结构与海量数据；4. 对象存储用于海量非结构化文件，具备高持久性但不支持随机更新；5. 方案选择需综合数据类型、访问模式与规模，最合适组合优于…

程序猿
2025年12月21日
0000
好文分享

解决 node-oracledb 6.0 Thin 模式脚本结束延迟问题

node-oracledb 6.0 Thin 模式下，若不显式关闭数据库连接，Node.js 脚本在执行完毕后会出现数秒的延迟才终止。这是因为 Thin 模式直接管理网络套接字，这些套接字会保持 Node.js 事件循环活跃，直到被垃圾回收器处理。为避免此延迟，务必通过 connection.clo…

程序猿
2025年12月20日
0000
好文分享

深入理解node-oracledb 6 Thin模式下的连接管理与脚本终止行为

在使用node-oracledb 6的Thin模式时，若不显式关闭数据库连接，Node.js脚本可能出现意外的延迟终止。这是因为Thin模式下的内部套接字会被Node.js事件循环感知，从而阻止进程立即退出，直至连接被垃圾回收或显式关闭。本文将深入探讨这一机制，并强调在Thin模式下显式调用conn…

程序猿
2025年12月20日
0000
好文分享

如何在APEX自动完成文本字段中实现多条件代码触发（选择值或离开字段）

针对APEX 22.2.4中自动完成文本字段的事件触发限制，本文提供了一种解决方案。通过结合“Change”和“Key Down”两种动态操作，并利用“Debounce”机制优化按键事件，开发者可以实现在用户选择列表值或离开字段时，以及在用户输入过程中按需触发自定义代码，从而提升应用交互的灵活性和用…

程序猿
2025年12月20日
0000
好文分享

Oracle APEX：掌握通过JavaScript正确调用应用程序级进程的方法

本教程详细阐述了在Oracle APEX中通过JavaScript动态调用应用程序级进程的正确方法。它澄清了apex.submit()与apex.server.process()之间的关键区别，指出前者仅用于页面提交，而后者才是执行命名服务器端进程的AJAX首选。文章提供了示例代码和配置指导，帮助开…

程序猿
2025年12月20日
0000
好文分享

Oracle APEX中正确调用应用程序级进程：告别apex.submit的误区

本文探讨Oracle APEX中从页面动态操作调用应用程序级进程的常见误区。明确指出apex.submit仅用于页面提交并设置请求值，而要真正触发应用程序级进程，应使用apex.server.process进行按需AJAX调用。文章将详细介绍apex.server.process的使用方法、参数配置…

程序猿
2025年12月20日
0000
好文分享

Node.js中如何加密数据？

Node.js中加密数据需选用合适算法并安全管理密钥。推荐使用AES-256-GCM进行对称加密，因其提供机密性与完整性；RSA配合OAEP填充用于非对称加密，适合密钥交换；密码存储应采用bcrypt等专用哈希算法，避免MD5、SHA1。密钥绝不可硬编码，应通过环境变量、KMS或HSM安全管理，并定…

程序猿
2025年12月20日
0000

发表回复

登录后才能评论

使用 PySpark 从 JSON 对象中选择并透视数据

使用 PySpark 处理 JSON 数据并进行透视

关于作者

相关推荐

发表回复