高效将Pandas DataFrame转换为嵌套字典的技巧

程序猿 • 2025年12月14日 10:58:36 • 用户投稿 • 阅读 0

本文探讨如何高效地将Pandas DataFrame转换为一个嵌套字典结构，其中包含两层键和列表值。通过对比传统iterrows方法，我们重点介绍并演示了利用collections.defaultdict和df.values进行扩展解包的优化方案，该方案能显著提升代码的简洁性和执行效率，尤其适用于处理大型数据集。

在数据处理中，我们经常需要将结构化的表格数据（如pandas dataframe）转换为更灵活的嵌套字典格式，以便于后续的数据查询或业务逻辑处理。一个常见的需求是，将dataframe中的两列作为嵌套字典的键，而其余列的值则聚合为一个列表作为最内层字典的值。

原始实现与局限

考虑一个包含公司（Company）、产品（Product）以及相关生产数据（Production Cost, Development Time, Launch Year）的DataFrame。我们的目标是创建一个字典，其中外层键是公司名，内层键是产品名，对应的值是生产数据的列表。

以下是使用df.iterrows()方法实现这一目标的常见代码：

import pandas as pd# 示例DataFrame，通常从Excel文件读取df = pd.DataFrame({    "Company": ["TechCorp", "Innovate Inc", "Green Solutions", "Future Dynamics"],    "Product": ["TC100", "IN200", "GS300", "FD400"],    "Production Cost": [10000, 15000, 12000, 18000],    "Development Time": [6, 9, 8, 12],    "Launch Year": [2023, 2024, 2023, 2025]})nested_dict = {}for index, row in df.iterrows():    company = row['Company']    product = row['Product']    # 提取其他列的值并转换为列表    values = row[['Production Cost', 'Development Time', 'Launch Year']].tolist()    if company not in nested_dict:        nested_dict[company] = {}    nested_dict[company][product] = valuesprint(nested_dict)

这段代码能够正确生成所需的嵌套字典结构：

{'TechCorp': {'TC100': [10000, 6, 2023]}, 'Innovate Inc': {'IN200': [15000, 9, 2024]}, 'Green Solutions': {'GS300': [12000, 8, 2023]}, 'Future Dynamics': {'FD400': [18000, 12, 2025]}}

然而，df.iterrows()在处理大型DataFrame时效率相对较低。每次迭代都会返回一个Series对象，这涉及到额外的开销。同时，手动检查字典中是否存在外层键 (if company not in nested_dict:) 增加了代码的冗余。

优化方案：Defaultdict与df.values的结合

为了提高效率并简化代码，我们可以利用Python标准库collections中的defaultdict和Pandas DataFrame的底层NumPy数组表示df.values。

collections.defaultdict: defaultdict是dict的一个子类，它允许在访问不存在的键时自动创建该键并赋予一个默认值。在本例中，我们可以将defaultdict(dict)作为外层字典，这样当遇到新的公司名时，会自动创建一个空的内层字典。df.values与扩展解包: df.values属性返回DataFrame中所有数据的NumPy数组表示。直接遍历这个数组比iterrows()更高效。通过使用Python的扩展解包（*操作符），我们可以方便地将一行中的前几个元素分配给特定变量，而将剩余的所有元素收集到一个列表中。

以下是优化后的代码实现：

from collections import defaultdictimport pandas as pd# 示例DataFramedf = pd.DataFrame({    "Company": ["TechCorp", "Innovate Inc", "Green Solutions", "Future Dynamics"],    "Product": ["TC100", "IN200", "GS300", "FD400"],    "Production Cost": [10000, 15000, 12000, 18000],    "Development Time": [6, 9, 8, 12],    "Launch Year": [2023, 2024, 2023, 2025]})# 为了演示defaultdict的优势，我们添加一个TechCorp的新产品df.loc[len(df)] = ['TechCorp', 'TC200', 20000, 12, 2025]nested_dict = defaultdict(dict)# 遍历df.values，使用扩展解包for company, product, *values in df.values:    nested_dict[company][product] = valuesprint(dict(nested_dict)) # 将defaultdict转换为普通dict以便输出

代码解析：

nested_dict = defaultdict(dict)：初始化一个defaultdict，其默认工厂函数是dict。这意味着如果nested_dict中尝试访问一个不存在的company键，它会自动创建一个空的普通字典作为该键的值。for company, product, *values in df.values:：df.values将DataFrame转换为一个NumPy数组。每次迭代获取数组中的一行。company和product分别捕获行的前两个元素。*values是Python的扩展解包语法，它会收集行中剩余的所有元素，并将它们作为一个列表赋值给values变量。这完美匹配了我们的需求，即其余列的值作为一个列表。

优化后的输出（包含新增数据）：

{ 'TechCorp': {'TC100': [10000, 6, 2023], 'TC200': [20000, 12, 2025]}, 'Innovate Inc': {'IN200': [15000, 9, 2024]}, 'Green Solutions': {'GS300': [12000, 8, 2023]}, 'Future Dynamics': {'FD400': [18000, 12, 2025]}}

可以看到，TechCorp下的两个产品及其数据都被正确地聚合到了同一个外层字典中，证明了defaultdict的有效性。

注意事项

列顺序的重要性: 使用df.values时，数据的顺序至关重要。确保DataFrame中作为键的列（Company, Product）位于需要作为值列表的列之前。如果列顺序不符合预期，需要在使用df.values前对DataFrame进行列重排。性能提升: 对于大型数据集，直接遍历df.values通常比iterrows()快得多，因为df.values操作直接在NumPy数组上进行，避免了Pandas Series对象的创建开销。代码简洁性: defaultdict消除了手动检查键是否存在的if语句，使得代码更加简洁和易读。扩展解包也极大地简化了值列表的创建过程。数据类型: df.values返回的NumPy数组中的元素会保留其原始数据类型。在大多数情况下，这不会有问题，但如果需要特定类型转换，可能需要在*values捕获后进行处理。

总结

通过巧妙地结合collections.defaultdict和df.values的扩展解包功能，我们可以显著优化从Pandas DataFrame构建复杂嵌套字典的过程。这种方法不仅提升了代码的执行效率，尤其是在处理大规模数据时，还增强了代码的简洁性和可读性，是Python数据处理中值得推荐的实践。

以上就是高效将Pandas DataFrame转换为嵌套字典的技巧的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1370918.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

python中isinstance()和type()有什么区别？

上一篇 2025年12月14日 10:58:31

深入理解Python For循环中的索引管理与列表原地修改

下一篇 2025年12月14日 10:58:46

好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
3000
好文分享

旋转长方形后，如何计算其相对于画布左上角的轴距？

绘制长方形并旋转，计算旋转后轴距在拥有 1920×1080 画布中，放置一个宽高为 200×20 的长方形，其坐标位于 (100, 100)。当以任意角度旋转长方形时，如何计算它相对于画布左上角的 x、y 轴距？以下代码提供了一个计算旋转后长方形轴距的解决方案： const x = 200;co…

程序猿
2025年12月24日
0000
好文分享

旋转长方形后，如何计算它与画布左上角的xy轴距？

旋转后长方形在画布上的xy轴距计算在画布中添加一个长方形，并将其旋转任意角度，如何计算旋转后的长方形与画布左上角之间的xy轴距？问题分解：要计算旋转后长方形的xy轴距，需要考虑旋转对长方形宽高和位置的影响。首先，旋转会改变长方形的长和宽，其次，旋转会改变长方形的中心点位置。求解方法：计算旋…

程序猿
2025年12月24日
0000
好文分享

旋转长方形后如何计算其在画布上的轴距？

旋转长方形后计算轴距假设长方形的宽、高分别为 200 和 20，初始坐标为 (100, 100)，我们将它旋转一个任意角度。根据旋转矩阵公式，旋转后的新坐标 (x’, y’) 可以通过以下公式计算： x’ = x * cos(θ) – y * sin(θ)y’ = x * …

程序猿
2025年12月24日
0000
好文分享

如何计算旋转后长方形在画布上的轴距？

旋转后长方形与画布轴距计算在给定的画布中，有一个长方形，在随机旋转一定角度后，如何计算其在画布上的轴距，即距离左上角的距离？以下提供一种计算长方形相对于画布左上角的新轴距的方法： const x = 200; // 初始 x 坐标const y = 90; // 初始 y 坐标const w =…

程序猿
2025年12月24日
2000
好文分享

CSS元素设置em和transition后，为何载入页面无放大效果？

css元素设置em和transition后，为何载入无放大效果很多开发者在设置了em和transition后，却发现元素载入页面时无放大效果。本文将解答这一问题。原问题：在视频演示中，将元素设置如下，载入页面会有放大效果。然而，在个人尝试中，并未出现该效果。这是由于macos和windows系统…

程序猿
2025年12月24日
3000
好文分享

如何计算旋转后的长方形在画布上的 XY 轴距？

旋转长方形后计算其画布xy轴距在创建的画布上添加了一个长方形，并提供其宽、高和初始坐标。为了视觉化旋转效果，还提供了一些旋转特定角度后的图片。问题是如何计算任意角度旋转后，这个长方形的xy轴距。这涉及到使用三角学来计算旋转后的坐标。以下是一个 javascript 代码示例，用于计算旋转后长方…

程序猿
2025年12月24日
0000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
3000
好文分享

当父元素仅设置行高时，块级和行内块级元素的行为有何区别？

当父元素仅设置行高时，块级或行内块级子元素的行为在 html 中，当父元素仅设置行高 line-height 时，块级或行内块级元素的行为会有所不同。 <line-height: 60px; background-color: antiquewhite; 哈哈哈行内块级元素（display…

程序猿
2025年12月24日
3000
好文分享

如何使用 CSS 渐变实现仅显示左右两端的多彩边框？

使用 css 渐变实现多彩边框在需要给元素添加边框时，我们可以通过 css 的 border-image 属性实现渐变边框效果。例如，以下代码可以设置一个左右两端显示渐变色的边框： border-image: linear-gradient(rgba(255, 255, 255, 0.00) 0%…

程序猿
2025年12月24日
0000
好文分享

CSS 样式隔离难题：不同项目如何兼容不同版本组件库？

CSS 样式隔离难题：不同项目如何兼容不同版本组件库？在软件开发中，不同的项目经常会使用不同的组件库或框架版本。当这些项目需要集成在一起时，不同样式之间的冲突就成了一个难题。在这个案例中，项目 A 和 B 都使用 ant-design-vue 组件库，但版本不一致。由于部分 A 项目中的组件 CS…

程序猿
2025年12月24日
1000
好文分享

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
3000
好文分享

如何在 VS Code 中解决折叠代码复制问题？

解决 VS Code 折叠代码复制问题在 VS Code 中使用折叠功能可以帮助组织长代码，但使用复制功能时，可能会遇到只复制可见部分的问题。以下是如何解决此问题：当代码被折叠时，可以使用以下简单操作复制整个折叠代码：按下 Ctrl + C (Windows/Linux) 或 Cmd + C …

程序猿
2025年12月24日
1000
好文分享

如何相对定位使用 z-index 在小程序中将文字压在图片上？

如何在小程序中不使用绝对定位压住上面的图片？在小程序开发中，有时候需要将文字内容压在图片上，但是又不想使用绝对定位来实现。这种情况可以使用相对定位和 z-index 属性来解决。问题示例：小程序中的代码如下：顶顶顶顶 .index{ width: 100%; height: 100vh;}.…

程序猿
2025年12月24日
0000
好文分享

在 Sass 中使用 Mixin

如果您正在深入研究前端开发世界，那么您很可能遇到过sass（语法很棒的样式表）。 sass 是一个强大的 css 预处理器，它通过提供变量、嵌套、函数和 mixins 等功能来增强您的 css 工作流程。在这些功能中，mixins 作为游戏规则改变者脱颖而出，允许您有效地重用代码并保持样式表的一致性…

程序猿
2025年12月24日
2000
好文分享

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
3000
好文分享

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
1000
好文分享

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
好文分享

html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

HTML5无法直接导出video标签内容，需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制；FFmpeg.wasm支持MP4等格式及精细编码控制；服务端方案适合高负载场景。如果您希望在网页…

程序猿
2025年12月23日
4000
好文分享

如何查看编写的html_查看自己编写的HTML文件效果【效果】

要查看HTML文件的浏览器渲染效果，需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。如果您编写了HTML代码，但无法直观看到其在浏览器中的实际渲染效果，则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

程序猿
2025年12月23日
4000