如何用Python处理JSON嵌套数据？json_normalize技巧

程序猿 • 2025年12月14日 03:37:01 • 好文分享 • 阅读 0

json_normalize处理多层嵌套json的关键在于record_path和meta参数的配合使用。1. record_path用于指定要展开的列表路径，可以是字符串或列表形式，如’orders’或[‘orders’, ‘items’]，表示逐层展开；2. meta用于保留父级字段信息，可指定单层或多层路径，如[‘contact’, ’email’]；3. 处理不规则结构时，可通过errors=’ignore’忽略缺失键，用nan填充；4. 拍平后的dataframe可结合pandas进行数据类型转换、列重命名、缺失值处理、数据聚合等操作，实现高效分析与清洗。

Python处理JSON嵌套数据，json_normalize是一个非常实用的工具，它能将复杂的嵌套结构“拍平”成表格形式，便于数据分析和处理，尤其在处理API返回或日志数据时，效率极高。

解决方案

在数据处理的日常中，我们经常会遇到JSON数据，尤其是那些层层嵌套、结构复杂的JSON。直接用字典方式去一层层取值，不仅代码臃肿，还容易出错，特别是当某个键可能不存在时。这时候，json_normalize就显得非常方便了，它能把这种树状结构转换成扁平的Pandas DataFrame，就像把一张立体地图摊平了看。

我们来看一个典型的场景：一份包含用户、订单及其商品详情的JSON数据。

立即学习“Python免费学习笔记（深入）”；

[  {    "user_id": "U001",    "user_name": "Alice",    "contact": {      "email": "alice@example.com",      "phone": "123-456-7890"    },    "orders": [      {        "order_id": "O101",        "date": "2023-01-15",        "items": [          {"item_id": "P001", "name": "Laptop", "price": 1200, "qty": 1},          {"item_id": "P002", "name": "Mouse", "price": 25, "qty": 2}        ]      },      {        "order_id": "O102",        "date": "2023-01-20",        "items": [          {"item_id": "P003", "name": "Keyboard", "price": 75, "qty": 1}        ]      }    ]  },  {    "user_id": "U002",    "user_name": "Bob",    "contact": {      "email": "bob@example.com",      "phone": "987-654-3210"    },    "orders": [      {        "order_id": "O201",        "date": "2023-02-01",        "items": [          {"item_id": "P004", "name": "Monitor", "price": 300, "qty": 1}        ]      }    ]  }]

要将上述数据“拍平”，尤其是提取orders和items中的信息，同时保留用户和订单的基本信息，json_normalize的record_path和meta参数就派上用场了。

import pandas as pdfrom pandas import json_normalizeimport jsondata = [  {    "user_id": "U001",    "user_name": "Alice",    "contact": {      "email": "alice@example.com",      "phone": "123-456-7890"    },    "orders": [      {        "order_id": "O101",        "date": "2023-01-15",        "items": [          {"item_id": "P001", "name": "Laptop", "price": 1200, "qty": 1},          {"item_id": "P002", "name": "Mouse", "price": 25, "qty": 2}        ]      },      {        "order_id": "O102",        "date": "2023-01-20",        "items": [          {"item_id": "P003", "name": "Keyboard", "price": 75, "qty": 1}        ]      }    ]  },  {    "user_id": "U002",    "user_name": "Bob",    "contact": {      "email": "bob@example.com",      "phone": "987-654-3210"    },    "orders": [      {        "order_id": "O201",        "date": "2023-02-01",        "items": [          {"item_id": "P004", "name": "Monitor", "price": 300, "qty": 1}        ]      }    ]  }]# 第一次拍平：将用户和订单关联起来# record_path 指定要展开的列表路径# meta 指定要保留的父级键orders_df = json_normalize(    data,    record_path='orders',    meta=['user_id', 'user_name', ['contact', 'email'], ['contact', 'phone']],    sep='_' # 用于连接meta中多层嵌套键的名称)# 第二次拍平：将订单和商品关联起来# 此时的输入数据是orders_df，但我们需要操作的是其中的'items'列# 这一步稍微有点技巧，因为json_normalize通常直接处理list of dicts# 这里需要对orders_df的每一行进行迭代或再次应用json_normalize# 更直接的方法是先将所有items提取出来，再normalizeall_items = []for idx, row in orders_df.iterrows():    order_items = row['items']    # 将订单ID和日期等信息添加到每个item中，以便后续关联    for item in order_items:        item['order_id'] = row['order_id']        item['order_date'] = row['date']        item['user_id'] = row['user_id'] # 再次添加用户ID，方便最终合并    all_items.extend(order_items)items_df = json_normalize(all_items)# 最后，将用户、订单、商品信息合并成一个宽表# 通常我们会选择一个合适的键进行合并，这里是user_id和order_id# 但由于第二次拍平已经包含了这些信息，我们只需要选择需要的列# 也可以考虑先将所有数据normalize到最细粒度（item），再选择列final_df = items_df[[    'user_id', 'order_id', 'order_date',    'item_id', 'name', 'price', 'qty']]print(final_df)

这段代码会输出一个扁平化的DataFrame，每一行代表一个商品，并附带了其所属订单和用户的相关信息。这种分步处理的方式，在面对多层嵌套时，能让逻辑更清晰。

处理复杂多层嵌套JSON时，json_normalize的record_path和meta参数怎么用？

json_normalize的核心魅力，确实在于record_path和meta这两个参数的灵活运用。它们像是两把钥匙，一把用来打开你要展开的“列表之门”，另一把则帮你把“门外”的上下文信息带进来。

record_path参数是用来指定JSON中哪个列表（或列表中的字典）应该被展开成新的行。它可以是一个字符串，比如'orders'，表示直接展开顶层下的orders列表。如果嵌套更深，比如要展开orders列表中的每个订单里的items列表，那么record_path就应该是一个路径列表，例如['orders', 'items']。这表示json_normalize会先进入orders，然后对orders里的每个元素（也就是每个订单字典）再进入items列表进行展开。

举个例子，如果我们想直接从原始数据中获取所有商品的信息，同时保留其所属的用户ID和订单ID，record_path和meta的组合就会是这样：

# 假设我们想直接从最顶层的数据中，一步到位地获取所有商品的详细信息，# 并关联上用户ID、用户姓名、订单ID和订单日期。# 这就需要record_path指向['orders', 'items']# meta则需要包含 user_id, user_name, 以及 orders下的 order_id 和 date# 注意：当record_path指向一个多层路径时，meta中的路径也需要相应调整# 比如，如果record_path是 ['orders', 'items']，那么meta中的 'order_id'# 实际上是从 'orders' 这一层级获取的，所以需要写成 ['orders', 'order_id']# 但json_normalize在处理这种多层record_path时，meta参数的解读会有些不同# 它会默认你提供的meta字段是相对于record_path的“父级”层级。# 简单来说，如果record_path是A->B，那么meta中的字段就是从A这个层级取的。# 但如果meta字段本身也是嵌套的，比如 contact.email，就需要用列表表示 ['contact', 'email']# 实际操作中，直接用['orders', 'items']作为record_path，并把所有父级信息都放进meta，# 可能会有点复杂，因为meta的路径是相对于record_path的父级而言的。# 通常更推荐分步处理，或者先将数据结构预处理一下。# 但如果结构允许，可以这样尝试：items_flat_df = json_normalize(    data,    record_path=['orders', 'items'], # 展开到最细粒度的items    meta=[        'user_id',        'user_name',        ['contact', 'email'],        ['contact', 'phone'],        ['orders', 'order_id'], # 从orders层级获取order_id        ['orders', 'date']      # 从orders层级获取date    ],    errors='ignore' # 忽略可能存在的路径错误，避免中断)# 这样处理后，你会发现['orders', 'order_id']和['orders', 'date']可能会出现重复，# 因为json_normalize会为每个item重复其父级orders的信息。# 实际输出时，它会尝试将这些父级信息关联到每个展开的子项上。# 但需要注意的是，当record_path是多层嵌套时，meta的路径是相对于record_path的*直接父级*而言的。# 也就是说，如果record_path是 ['orders', 'items']，那么 meta 里的 'order_id' # 是从 'orders' 这个层级取出来的，而不是从最顶层。# 这也是为什么我个人倾向于分步拍平，或者在第二次拍平前，先将第一次拍平的结果进行预处理，# 把需要保留的父级信息直接注入到子级列表的每个字典中。# 比如，在上面第一次拍平后，迭代`orders_df`，把`order_id`和`user_id`加到每个`item`字典里，# 这样第二次拍平`items`时，它们就自然成为列了。这种手动注入的方式，虽然多了一步，# 但在处理逻辑上会更直观，尤其在JSON结构非常复杂且不规则时。`meta`参数则负责从原始JSON的父级层中提取你想要保留的字段。它可以是一个字符串（如`'user_id'`），也可以是一个路径列表（如`['contact', 'email']`），用于提取嵌套的父级字段。`json_normalize`会把这些`meta`字段的值复制到每个展开的行中，确保你不会丢失上下文信息。当你需要将不同层级的数据关联起来时，`meta`是必不可少的。### json_normalize遇到缺失值或不规则结构时如何应对？实际工作中，我们拿到的JSON数据很少是完美的。键可能缺失，或者某些字段的结构突然变了，这在日志数据或者第三方API返回中尤其常见。`json_normalize`在处理这些“不完美”时，默认行为是相当稳健的。当`json_normalize`在尝试访问`record_path`或`meta`中指定的键，而该键不存在时，它会默认用`NaN`（Not a Number）或`None`来填充对应的列。这通常是可接受的，因为它避免了程序崩溃，并清晰地标识了数据缺失的位置。如果你希望在遇到这种缺失或不规则情况时，`json_normalize`的行为有所不同，可以使用`errors`参数。*   `errors='ignore'` (默认值): 这是最常用的选项，它会忽略错误，将无法解析的字段填充为`NaN`，然后继续处理。这对于数据质量不高的场景非常有用，因为它能让你尽可能多地提取出有效数据。*   `errors='raise'`: 如果你对数据结构有严格要求，任何一个指定路径的键缺失都应该被视为错误并中断程序，那么可以选择这个选项。它会抛出一个`KeyError`或其他相关异常。这在开发和测试阶段，或者你确信数据应该总是符合特定结构时很有用，能帮助你快速发现数据源的问题。举个例子，如果我们的JSON数据中，有的用户没有`contact`信息，或者`orders`列表是空的：```json[  {    "user_id": "U003",    "user_name": "Charlie",    "orders": [] # 空订单列表  },  {    "user_id": "U004",    "user_name": "Diana",    "contact": { "email": "diana@example.com" } # 缺少phone  }]

当我们用之前的json_normalize方法处理时：

data_irregular = [  {    "user_id": "U003",    "user_name": "Charlie",    "orders": []  },  {    "user_id": "U004",    "user_name": "Diana",    "contact": { "email": "diana@example.com" }  }]# 第一次拍平orders_df_irregular = json_normalize(    data_irregular,    record_path='orders',    meta=['user_id', 'user_name', ['contact', 'email'], ['contact', 'phone']],    sep='_',    errors='ignore' # 明确指定忽略错误)print(orders_df_irregular)

对于U003，因为orders列表为空，json_normalize不会生成任何行，这很合理。对于U004，contact_phone列会显示NaN，因为它在原始JSON中不存在。这种处理方式，让我觉得json_normalize在鲁棒性方面做得相当不错，能应对很多实际场景中的数据脏乱问题。当然，如果结构不规则到连record_path本身都可能不是列表，或者meta路径下的值类型不一致，那可能就需要一些预处理，比如用try-except块手动解析，或者在json_normalize之前用列表推导式清理数据。

json_normalize处理后的数据，如何结合Pandas进行高效分析和清洗？

json_normalize的输出是一个Pandas DataFrame，这意味着我们可以无缝地利用Pandas的强大功能进行后续的数据分析和清洗。这才是真正发挥数据价值的关键一步。

一旦你把复杂的JSON结构“拍平”了，接下来通常会做这些事情：

数据类型转换： json_normalize默认会尝试推断列的数据类型，但有时推断不准确，比如数字被当作字符串，日期被当作对象。这时候，可以使用df['column_name'].astype(int)、pd.to_datetime(df['date_column'])等方法进行显式转换。例如，商品价格和数量应该转换为数值类型，订单日期应该转换为日期时间类型，这对于后续的数值计算和时间序列分析至关重要。

# 假设items_df已经生成items_df['price'] = pd.to_numeric(items_df['price'], errors='coerce') # errors='coerce' 将无法转换的值设为NaNitems_df['qty'] = pd.to_numeric(items_df['qty'], errors='coerce')items_df['order_date'] = pd.to_datetime(items_df['order_date'])

列重命名与选择： json_normalize在处理嵌套键时，会默认用下划线连接，比如contact_email。如果你觉得这些列名不够直观，或者想简化，可以利用df.rename(columns={'old_name': 'new_name'})进行批量重命名。同时，如果拍平后出现了大量你不需要的中间列，可以使用df[['col1', 'col2', ...]]进行列选择，只保留你关心的核心数据。

# 假设我们想把contact_email改成更简洁的emailfinal_df_renamed = final_df.rename(columns={'contact_email': 'email'})# 或者直接在选择列的时候就完成简化# final_df = items_df[['user_id', 'order_id', 'order_date', 'item_id', 'name', 'price', 'qty', 'contact_email']]# final_df = final_df.rename(columns={'contact_email': 'email'})

数据清洗与缺失值处理： 拍平后的DataFrame可能会有NaN值，这需要根据业务逻辑进行处理。你可以选择填充（df.fillna(value)）、删除（df.dropna()）或者进行更复杂的插值。

# 填充缺失的电话号码为'未知'final_df['contact_phone'].fillna('未知', inplace=True)

数据聚合与透视： 这是数据分析的核心。一旦数据扁平化，你就可以轻松地进行分组聚合（df.groupby()），比如计算每个用户的总消费、每个商品的销售总量等。也可以使用pivot_table进行数据透视，从不同维度观察数据。

# 计算每个用户的总消费user_total_spend = final_df.groupby('user_id')['price'].sum()print("用户总消费：n", user_total_spend)# 计算每个商品的销售总量item_sales_qty = final_df.groupby('item_id')['qty'].sum()print("n商品销售总量：n", item_sales_qty)# 查看每个订单的商品数量order_item_counts = final_df.groupby('order_id')['item_id'].count()print("n订单商品数量：n", order_item_counts)

与其他数据源合并： 在实际项目中，你可能需要将这份拍平的JSON数据与来自数据库、CSV文件等其他数据源的数据进行合并（pd.merge()），以构建更全面的分析视图。例如，将用户ID与一个包含用户地理位置信息的DataFrame合并。

这些后续步骤，才是真正让json_normalize处理后的数据发挥其潜力的环节。它不仅仅是一个工具，更是一个数据处理流程中的关键“中转站”，将复杂的数据结构转化为易于操作的表格形式，为后续的深度分析铺平道路。

以上就是如何用Python处理JSON嵌套数据？json_normalize技巧的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1363783.html

ai csv文件 python 为什么地理位置工具

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Pandas cut 函数进阶：理解输出与定制分箱区间

上一篇 2025年12月14日 03:36:57

Python：无需 itertools 库，垂直打印多字符串

下一篇 2025年12月14日 03:37:15

好文分享

CSS mask属性无法获取图片：为什么我的图片不见了？

CSS mask属性无法获取图片在使用CSS mask属性时，可能会遇到无法获取指定照片的情况。这个问题通常表现为：网络面板中没有请求图片：尽管CSS代码中指定了图片地址，但网络面板中却找不到图片的请求记录。问题原因：此问题的可能原因是浏览器的兼容性问题。某些较旧版本的浏览器可能不支持CSS…

程序猿
2025年12月24日
9000
好文分享

Uniapp 中如何不拉伸不裁剪地展示图片？

灵活展示图片：如何不拉伸不裁剪在界面设计中，常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。对于不同尺寸的图片，可以采用以下处理方式：极端宽高比：撑满屏幕宽度或高度，再等比缩放居中。非极端宽高比：居中显示，若能撑满则撑满。然而，如果需要不拉伸不…

程序猿
2025年12月24日
4000
好文分享

如何让小说网站控制台显示乱码，同时网页内容正常显示？

如何在不影响用户界面的情况下实现控制台乱码？当在小说网站上下载小说时，大家可能会遇到一个问题：网站上的文本在网页内正常显示，但是在控制台中却是乱码。如何实现此类操作，从而在不影响用户界面（UI）的情况下保持控制台乱码呢？答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体，并通过在客户端…

程序猿
2025年12月24日
8000
好文分享

如何在地图上轻松创建气泡信息框？

地图上气泡信息框的巧妙生成地图上气泡信息框是一种常用的交互功能，它简便易用，能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。利用地图库的原生功能大多数地图库，如高德地图，都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现：高德地图 JS API 参考文…

程序猿
2025年12月24日
4000
好文分享

如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画？

如何实现元素scrollleft变化时的平滑动画效果？在许多网页应用中，滚动容器的水平滚动条（scrollleft）需要频繁使用。为了让滚动动作更加自然，你希望给scrollleft的变化添加动画效果。解决方案：scroll-behavior 属性要实现scrollleft变化时的平滑动画效果…

程序猿
2025年12月24日
0000
好文分享

如何为滚动元素添加平滑过渡，使滚动条滑动时更自然流畅？

给滚动元素平滑过渡如何在滚动条属性（scrollleft）发生改变时为元素添加平滑的过渡效果？解决方案：scroll-behavior 属性为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码： click the button to slide right!…

程序猿
2025年12月24日
5000
为什么设置 `overflow: hidden` 会导致 `inline-block` 元素错位？

overflow 导致 inline-block 元素错位解析当多个 inline-block 元素并列排列时，可能会出现错位显示的问题。这通常是由于其中一个元素设置了 overflow 属性引起的。问题现象在不设置 overflow 属性时，元素按预期显示在同一水平线上：不设置 overf…

程序猿
2025年12月24日 • 好文分享
4000
好文分享

网页使用本地字体：为什么 CSS 代码中明明指定了“荆南麦圆体”，页面却仍然显示“微软雅黑”？

网页中使用本地字体本文将解答如何将本地安装字体应用到网页中，避免使用 src 属性直接引入字体文件。问题：想要在网页上使用已安装的“荆南麦圆体”字体，但 css 代码中将其置于第一位的“font-family”属性，页面仍显示“微软雅黑”字体。立即学习“前端免费学习笔记（深入）”；答案： …

程序猿
2025年12月24日
0000
好文分享

如何选择元素个数不固定的指定类名子元素？

灵活选择元素个数不固定的指定类名子元素在网页布局中，有时需要选择特定类名的子元素，但这些元素的数量并不固定。例如，下面这段 html 代码中，activebar 和 item 元素的数量均不固定： *n *n 如果需要选择第一个 item元素，可以使用 css 选择器 :nth-child()。该…

程序猿
2025年12月24日
2000
好文分享

使用 SVG 如何实现自定义宽度、间距和半径的虚线边框？

使用 svg 实现自定义虚线边框如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片，但是这种方法存在引入外部资源、性能低下的缺点。为了避免上述问题，可以使用 svg（可缩放矢量图形）来创建纯代码实现。一种方…

程序猿
2025年12月24日
1000
好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
2000
好文分享

如何让“元素跟随文本高度，而不是撑高父容器？

如何让元素跟随文本高度，而不是撑高父容器在页面布局中，经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中，父容器被较高的图片撑开，而文本的高度没有被考虑。本问答将提供纯css解决方案，让图片跟随文本高度，确保父容器的高度不会被图片影响。解决方法为了解决这个问题，需要将图片从文档流中脱离…

程序猿
2025年12月24日
0000
好文分享

为什么我的特定 DIV 在 Edge 浏览器中无法显示？

特定 DIV 无法显示：用户代理样式表的困扰当你在 Edge 浏览器中打开项目中的某个 div 时，却发现它无法正常显示，仔细检查样式后，发现是由用户代理样式表中的 display none 引起的。但你疑问的是，为什么会出现这样的样式表，而且只针对特定的 div？背后的原因用户代理样式表是由…

程序猿
2025年12月24日
2000
好文分享

inline-block元素错位了，是为什么？

inline-block元素错位背后的原因 inline-block元素是一种特殊类型的块级元素，它可以与其他元素行内排列。但是，在某些情况下，inline-block元素可能会出现错位显示的问题。错位的原因当inline-block元素设置了overflow:hidden属性时，它会影响元素的…

程序猿
2025年12月24日
0000
好文分享

为什么 CSS mask 属性未请求指定图片？

解决 css mask 属性未请求图片的问题在使用 css mask 属性时，指定了图片地址，但网络面板显示未请求获取该图片，这可能是由于浏览器兼容性问题造成的。问题如下代码所示：立即学习“前端免费学习笔记（深入）”； icon [data-icon=”cloud”] { –icon-cl…

程序猿
2025年12月24日
2000
好文分享

为什么使用 inline-block 元素时会错位？

inline-block 元素错位成因剖析在使用 inline-block 元素时，可能会遇到它们错位显示的问题。如代码 demo 所示，当设置了 overflow 属性时，a 标签就会错位下沉，而未设置时却不会。问题根源： overflow:hidden 属性影响了 inline-block …

程序猿
2025年12月24日
0000
好文分享

如何利用 CSS 选中激活标签并影响相邻元素的样式？

如何利用 css 选中激活标签并影响相邻元素？为了实现激活标签影响相邻元素的样式需求，可以通过 :has 选择器来实现。以下是如何具体操作：对于激活标签相邻后的元素，可以在 css 中使用以下代码进行设置： li:has(+li.active) { border-radius: 0 0 10px…

程序猿
2025年12月24日
1000
好文分享

为什么我的 CSS 元素放大效果无法正常生效？

css 设置元素放大效果的疑问解答原提问者在尝试给元素添加 10em 字体大小和过渡效果后，未能在进入页面时看到放大效果。探究发现，原提问者将 CSS 代码直接写在页面中，导致放大效果无法触发。解决办法如下：将 CSS 样式写在一个单独的文件中，并使用标签引入该样式文件。这个操作与原提问者观…

程序猿
2025年12月24日
0000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
2000
好文分享

为什么我的 em 和 transition 设置后元素没有放大？

元素设置 em 和 transition 后不放大一个 youtube 视频中展示了设置 em 和 transition 的元素在页面加载后会放大，但同样的代码在提问者电脑上没有达到预期效果。可能原因：问题在于 css 代码的位置。在视频中，css 被放置在单独的文件中并通过 link 标签引…

程序猿
2025年12月24日
1000