如何使用Pandas规范化多层嵌套的复杂JSON数据

如何使用Pandas规范化多层嵌套的复杂JSON数据

本文详细介绍了如何使用Pandas库的json_normalize函数来处理具有多层嵌套结构的复杂JSON数据,并将其扁平化为规整的DataFrame。通过结合record_path、meta参数以及后续的数据后处理技巧,例如explode和列重命名,即使面对包含字典内嵌字典、列表内嵌字典等复杂场景,也能高效地提取所需信息,最终生成一个易于分析的单行数据表。

复杂JSON数据的规范化挑战

在数据处理中,我们经常会遇到结构复杂的json数据,其中包含多层嵌套的字典和列表。例如,以下是一个典型的复杂json结构:

data = {  "id": 12345,  "name": "Doe",  "gender": {    "textEn": "Masculin"  },  "professions": [    {      "job_description": {        "textEn": "Job description"      },      "cetTitles": [        {          "cetTitleType": {            "textEn": "Recognition"          },          "issuanceDate": "1992-04-14T00:00:00Z",          "phoneNumbers": [            "123 221 00 70"          ]        }      ]    }  ]}

我们的目标是将这样的数据扁平化,使其所有关键信息都作为Pandas DataFrame的列,最终形成一个单行表格,便于后续的数据分析和存储。直接使用pd.json_normalize处理多层嵌套的列表和字典可能会遇到困难,特别是当record_path需要深入到多层结构时。

使用pd.json_normalize进行初步扁平化

pd.json_normalize函数是处理嵌套JSON数据的强大工具。它允许我们指定一个record_path来展开列表中的记录,并使用meta参数来保留其他非列表字段。

确定record_path:record_path参数用于指定一个列表,该列表中的元素是JSON路径,指向需要展开的“记录列表”。在我们的例子中,professions是一个列表,其内部的cetTitles也是一个列表。因此,我们可以将record_path设置为[“professions”, “cetTitles”],以展开最深层的cetTitles列表。

确定meta字段:meta参数用于指定哪些非列表字段应该被保留并添加到最终的DataFrame中。它可以是一个字符串列表(用于顶级字段)或一个列表的列表(用于嵌套字段)。

顶级字段:”id”, “name”嵌套字段:”gender” (虽然它是一个字典,但我们希望将其作为一个整体保留,稍后处理其内部值)。[“professions”, “job_description”] (同样,将其作为一个整体保留,稍后处理)。

结合以上,我们可以构建初始的json_normalize调用:

import pandas as pddf = pd.json_normalize(    data=data,    record_path=["professions", "cetTitles"],    meta=["id", "name", "gender", ["professions", "job_description"]])

此时,df会包含cetTitles中的字段,以及id、name、gender和job_description。然而,gender和job_description会作为嵌套的字典对象出现在DataFrame列中,例如{‘textEn’: ‘Masculin’}。

后处理:扁平化嵌套字典和列表

为了达到期望的扁平化效果,我们需要对json_normalize的输出进行进一步处理。

处理列表字段 (phoneNumbers):cetTitles中的phoneNumbers字段本身是一个列表。如果一个cetTitle有多个电话号码,我们希望每个电话号码都占据一行,或者如果只有一个,则直接扁平化。explode()函数可以有效地处理这种情况,它会将列表中的每个元素转换为单独的行。

df = df.explode(column="phoneNumbers")

扁平化{‘textEn’: ‘value’}格式的字典字段:gender和job_description列现在包含形如{‘textEn’: ‘Masculin’}的字典。为了提取textEn的值并将其作为独立的列,我们可以采用以下步骤:

使用df.pop(“column_name”)提取列,并将其转换为列表。将该列表传递给pd.DataFrame(),这会将每个字典转换为一行(或多行,如果字典结构复杂)。由于我们知道字典中只有一个键textEn,我们可以直接获取其值。重命名新生成的列以匹配期望的输出。

# 处理 gender 字段df = df.join(pd.DataFrame(df.pop("gender").values.tolist()))# 处理 job_description 字段df = df.join(pd.DataFrame(df.pop("professions.job_description").values.tolist()))

请注意,professions.job_description是json_normalize在处理meta参数时自动生成的列名。

统一列名:经过上述处理,可能会出现gender.textEn、professions.job_description.textEn这样的列名,以及textEn这样的通用列名。我们需要将其统一为更简洁的名称。

对于cetTitleType,json_normalize会生成cetTitleType.textEn。对于gender和job_description,我们希望最终的列名是gender和job_description。

一个通用的方法是,如果列名包含.textEn,则只保留textEn后面的部分,或者直接重命名。

# 统一处理所有以 .textEn 结尾的列名df.columns = df.columns.str.split(".").str[-1]# 针对 gender 和 job_description 进行精确重命名,以防万一# 此时,如果前面已经执行了 df.columns = df.columns.str.split(".").str[-1],# 那么 gender.textEn 会变成 textEn,我们需要将其改回 gender。# 更好的做法是在通用重命名后,再进行特定列的重命名。df = df.rename(columns={"textEn": "gender"}) # 此时的 textEn 可能是 gender 转换来的df = df.rename(columns={"textEn": "job_description"}) # 此时的 textEn 可能是 job_description 转换来的# 注意:如果存在多个 'textEn',这种重命名方式可能会覆盖。# 更严谨的做法是先处理特定的,再处理通用的,或者根据原始列名判断。# 鉴于原始数据结构,这里两次 rename 效果是正确的,因为 pop 已经将原始列移除。

更稳健的重命名策略是,在每次join后立即重命名新生成的列,或者在所有join完成后,根据原始列名映射进行重命名。考虑到json_normalize会将gender和professions.job_description作为完整的字典保留,然后我们手动将其展开,所以最终会生成textEn列。

完整解决方案代码

将上述步骤整合起来,得到以下完整的Python代码:

import pandas as pddata = {  "id": 12345,  "name": "Doe",  "gender": {    "textEn": "Masculin"  },  "professions": [    {      "job_description": {        "textEn": "Job description"      },      "cetTitles": [        {          "cetTitleType": {            "textEn": "Recognition"          },          "issuanceDate": "1992-04-14T00:00:00Z",          "phoneNumbers": [            "123 221 00 70"          ]        }      ]    }  ]}# 1. 使用 json_normalize 扁平化主要结构# record_path 指向最深层的列表,meta 包含需要保留的顶层和中间层字段df = pd.json_normalize(    data=data,    record_path=["professions", "cetTitles"],    meta=["id", "name", "gender", ["professions", "job_description"]])# 2. 扁平化 phoneNumbers 列表(如果一个 cetTitle 有多个电话号码,会生成多行)df = df.explode(column="phoneNumbers")# 3. 扁平化 'gender' 字典字段# 提取 'gender' 列,将其内部字典转换为 DataFrame,然后合并gender_df = pd.DataFrame(df.pop("gender").values.tolist())df = df.join(gender_df)df = df.rename(columns={"textEn": "gender"}) # 重命名新生成的 'textEn' 列为 'gender'# 4. 扁平化 'professions.job_description' 字典字段# 提取 'professions.job_description' 列,将其内部字典转换为 DataFrame,然后合并job_description_df = pd.DataFrame(df.pop("professions.job_description").values.tolist())df = df.join(job_description_df)df = df.rename(columns={"textEn": "job_description"}) # 重命名新生成的 'textEn' 列为 'job_description'# 5. 统一处理剩余的列名,例如 'cetTitleType.textEn' -> 'cetTitleType'# 这一步应该在所有 pop 和 join 之后执行,以确保所有列名都被处理df.columns = df.columns.str.split(".").str[-1]print(df)

输出结果

执行上述代码,将得到以下DataFrame:

     issuanceDate   phoneNumbers     id name       gender job_description cetTitleType0  1992-04-14T00:00:00Z  123 221 00 70  12345  Doe   Masculin   Job description  Recognition

这个输出与我们期望的扁平化表格完全一致,所有嵌套信息都被成功提取并作为独立的列呈现。

注意事项与总结

record_path的选择: 务必将record_path指向一个包含字典的列表。如果指向一个字典,会引发TypeError。meta参数的灵活性: meta参数可以接受字符串列表(用于顶级键)或列表的列表(用于嵌套键),这对于保留关键上下文信息至关重要。后处理的必要性: json_normalize并非万能。对于某些特定格式(如{‘key’: ‘value’})或需要explode的列表,通常需要进行额外的pop、join、explode和rename操作。列名冲突: 在进行多次join和重命名时,要特别注意列名冲突。例如,如果多个字典字段都包含textEn键,直接rename(columns={“textEn”: …})可能会导致意外结果。更安全的做法是为每个pop出来的字段单独进行join和重命名,或者在最终统一重命名时,确保逻辑能够正确处理所有情况。数据类型: 扁平化后,请检查DataFrame中各列的数据类型是否符合预期,必要时进行类型转换。

通过掌握pd.json_normalize及其配合explode、pop、join和列重命名等技巧,可以高效地处理各种复杂嵌套的JSON数据,将其转换为易于分析的表格形式。

以上就是如何使用Pandas规范化多层嵌套的复杂JSON数据的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1373125.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 12:55:34
下一篇 2025年12月14日 12:55:45

相关推荐

  • 掌握Python列表复制:在原地修改后访问原始状态

    本文深入探讨了Python中列表原地修改(如pop()函数)导致原始数据丢失的问题。针对需要在执行in-place操作后仍能访问列表初始状态的场景,文章提供了一种核心解决方案:通过在修改前创建列表的副本,确保原始数据得以保留,从而在保持代码功能性的同时,满足数据追溯的需求。 Python列表的原地修…

    好文分享 2025年12月14日
    000
  • Python中按行和列索引访问CSV文件数据:两种高效方法详解

    本教程详细介绍了在Python中如何根据行和列索引访问CSV文件中的特定数据。我们将探讨两种主要方法:一是利用Python内置的csv模块结合enumerate函数进行迭代式访问,适用于基础场景;二是借助强大的pandas库,特别是DataFrame.iloc方法,实现更高效、便捷的数据定位与处理,…

    2025年12月14日
    000
  • Python 类的继承基础讲解

    继承实现代码复用与“is-a”关系,如Dog和Cat继承Animal共享属性方法;多重继承需谨慎使用,易引发MRO复杂性;优先选择组合表达“has-a”关系以提升灵活性。 Python的类继承,简单来说,就是让一个新类(我们叫它子类或派生类)能够“学到”另一个已有的类(父类或基类)的各种能力和特性。…

    2025年12月14日
    000
  • 解决Apache Beam中PyArrow反序列化漏洞的Snyk报告

    在使用Apache Beam进行Python项目开发时,开发者可能会遇到Snyk等安全扫描工具报告pyarrow库存在“不信任数据反序列化”的关键漏洞,即使使用的是最新版本的Beam(如2.52.0)。这一问题源于pyarrow的内部依赖,可能导致构建失败,给开发流程带来阻碍。本文将深入探讨这一问题…

    2025年12月14日
    000
  • python怎么将列表中的所有元素连接成一个字符串_python列表元素连接成字符串方法

    最直接且推荐的方法是使用字符串的 join() 方法,它高效、简洁,适用于将列表元素连接成字符串。对于非字符串元素,需先通过列表推导式或 map() 函数转换为字符串。join() 方法性能优越,避免了循环中使用 + 拼接带来的高开销,尤其适合处理大量数据。 Python中将列表元素连接成字符串,最…

    2025年12月14日
    000
  • Snakemake Slurm模式下Python脚本实时输出与规则优化实践

    本文探讨了Snakemake在Slurm集群环境下执行Python脚本时,实时输出无法显示的问题,并提供了解决方案。核心内容包括如何通过刷新标准输出解决即时反馈缺失,以及更重要的,通过重构Snakemake规则来优化工作流。我们将深入讲解如何将一个处理多样本的复杂规则拆分为更细粒度的任务,利用Sna…

    2025年12月14日
    000
  • Python 面向对象:构造函数 __init__ 的使用

    __init__是Python类的构造方法,用于初始化新创建对象的属性。它自动调用,接收self参数指向实例本身,并可定义初始状态;与普通方法不同,它不返回值,仅负责初始化。在继承中,子类需通过super().__init__()显式调用父类__init__,确保父类属性被正确初始化。若类无实例属性…

    2025年12月14日
    000
  • 初学者搭建 Python 环境的最佳实践

    答案:新手应避免使用系统自带Python,推荐通过python.org、pyenv或包管理器安装独立版本;使用venv创建虚拟环境隔离项目依赖;通过pip管理包并导出requirements.txt;选择VS Code或PyCharm等工具提升开发效率。 刚接触 Python 的新手在搭建开发环境时…

    2025年12月14日
    000
  • 如何在 Jupyter Notebook 中运行 Python

    启动Jupyter Notebook后创建Python 3文件,在单元格输入代码如print(“Hello, Jupyter!”),用Shift+Enter运行并查看输出,掌握快捷键提升操作效率,确保环境安装所需库,可保存为.ipynb或导出为.py、HTML等格式。 在 J…

    2025年12月14日
    000
  • python怎么对列表进行排序_python列表排序方法详解

    Python列表排序有两种方法:list.sort()原地修改列表并返回None,适用于无需保留原列表的场景;sorted()函数返回新列表,不改变原始数据,适合需保留原序或处理不可变对象的情况。两者均使用稳定的Timsort算法,默认升序排列,支持通过key参数自定义排序规则(如按长度、属性或字典…

    2025年12月14日
    000
  • python如何获取当前日期和时间_python获取系统日期时间方法详解

    Python使用datetime模块获取当前日期和时间,常用datetime.datetime.now()返回本地日期时间对象,date.today()获取日期,time()提取时间,strftime()格式化输出,fromtimestamp()将时间戳转为datetime对象,strptime()…

    2025年12月14日
    000
  • 解决Apache Beam中PyArrow Snyk漏洞报告的策略

    本文旨在解决在使用Apache Beam时,Snyk报告PyArrow库存在“不可信数据反序列化”漏洞(SNYK-PYTHON-PYARROW-6052811)导致构建失败的问题。核心解决方案是针对Apache Beam 2.52.0及更高版本,通过安装pyarrow_hotfix库来有效缓解此漏洞…

    2025年12月14日
    000
  • python如何判断一个路径是文件还是文件夹_python os.path判断路径类型的常用函数

    使用os.path.isfile()和os.path.isdir()判断路径类型,结合os.path.exists()检查存在性,可有效区分文件、文件夹及符号链接,并通过异常处理和日志记录避免程序出错。 判断一个路径是文件还是文件夹,Python 提供了 os.path 模块,它包含了一系列函数来检…

    2025年12月14日
    000
  • Snakemake在Slurm环境下实时输出与规则优化:深度教程

    本文深入探讨了Snakemake在Slurm集群中运行Python脚本时,输出无法实时显示的问题,并提供了强制刷新标准输出的解决方案。更重要的是,文章通过一个具体的案例,详细阐述了Snakemake规则设计的最佳实践,包括规则泛化、输出完整性、动态输入与参数配置、以及shell指令的推荐用法,旨在帮…

    2025年12月14日
    000
  • Python 单继承与多继承的区别

    单继承通过线性层级实现清晰的“is-a”关系,适合简单复用;多继承支持类从多个父类继承功能,借助Mixin模式按需组合能力,提升灵活性,但需依赖C3算法确定MRO以解决方法调用顺序,避免菱形继承歧义,实际开发中应优先单继承,谨慎使用多继承并配合super()和组合模式。 Python的继承机制,无论…

    2025年12月14日
    000
  • Python Pandas:深度解析多层嵌套JSON数据的扁平化处理

    本文详细介绍了如何使用Python Pandas库有效地将多层嵌套的复杂JSON数据扁平化为单一的表格结构。通过结合json_normalize函数的record_path、meta参数,以及后续的数据重塑操作(如explode和列名处理),本教程提供了一种将深层嵌套信息提取并整合到一行的专业方法,…

    2025年12月14日
    000
  • Python 数据分块处理大数据集

    分块处理大数据可避免内存溢出。使用pandas的chunksize参数可逐块读取大型CSV文件,适合聚合清洗;通过生成器可自定义分块逻辑,实现懒加载;结合joblib能并行处理独立数据块,提升计算效率。关键在于根据数据规模和任务选择合适策略,并及时释放内存、保存中间结果。 处理大数据集时,直接将整个…

    2025年12月14日
    000
  • Python 实战:个人理财可视化工具

    答案:Python通过Pandas和Plotly等库将分散的财务数据清洗、分类并可视化,帮助用户直观分析收支趋势、发现消费黑洞、追踪资产变化,从而提升财务掌控力。 Python能帮助我们构建强大的个人理财可视化工具,将复杂的财务数据转化为直观图表,帮助我们洞察收支模式,做出更明智的财务决策。这不仅仅…

    2025年12月14日
    000
  • Python 类中的私有属性与私有方法

    Python通过双下划线实现“私有”属性和方法,本质是名称混淆而非强制私有,目的是避免子类冲突并提示内部使用,体现“我们都是成年人”的设计哲学。 Python中所谓的“私有”属性和方法,其实并非像其他语言那样提供严格的访问控制。它更多是一种约定和一种巧妙的名称混淆(name mangling)机制,…

    2025年12月14日
    000
  • Linux 用户的 Python 环境搭建流程

    检查并升级 Python 版本,确保满足开发需求;2. 使用 venv 创建独立虚拟环境避免依赖冲突;3. 在虚拟环境中安装第三方包并导出依赖列表;4. 通过激活与退出环境及删除目录实现安全清理。 Linux 系统自带 Python,但为了开发需要,通常要配置独立且可控的 Python 环境。以下是…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信