高效将Pandas DataFrame转换为嵌套字典的技巧

高效将Pandas DataFrame转换为嵌套字典的技巧

本文探讨如何高效地将Pandas DataFrame转换为一个嵌套字典结构,其中包含两层键和列表值。通过对比传统iterrows方法,我们重点介绍并演示了利用collections.defaultdict和df.values进行扩展解包的优化方案,该方案能显著提升代码的简洁性和执行效率,尤其适用于处理大型数据集。

在数据处理中,我们经常需要将结构化的表格数据(如pandas dataframe)转换为更灵活的嵌套字典格式,以便于后续的数据查询或业务逻辑处理。一个常见的需求是,将dataframe中的两列作为嵌套字典的键,而其余列的值则聚合为一个列表作为最内层字典的值。

原始实现与局限

考虑一个包含公司(Company)、产品(Product)以及相关生产数据(Production Cost, Development Time, Launch Year)的DataFrame。我们的目标是创建一个字典,其中外层键是公司名,内层键是产品名,对应的值是生产数据的列表。

以下是使用df.iterrows()方法实现这一目标的常见代码:

import pandas as pd# 示例DataFrame,通常从Excel文件读取df = pd.DataFrame({    "Company": ["TechCorp", "Innovate Inc", "Green Solutions", "Future Dynamics"],    "Product": ["TC100", "IN200", "GS300", "FD400"],    "Production Cost": [10000, 15000, 12000, 18000],    "Development Time": [6, 9, 8, 12],    "Launch Year": [2023, 2024, 2023, 2025]})nested_dict = {}for index, row in df.iterrows():    company = row['Company']    product = row['Product']    # 提取其他列的值并转换为列表    values = row[['Production Cost', 'Development Time', 'Launch Year']].tolist()    if company not in nested_dict:        nested_dict[company] = {}    nested_dict[company][product] = valuesprint(nested_dict)

这段代码能够正确生成所需的嵌套字典结构:

{'TechCorp': {'TC100': [10000, 6, 2023]}, 'Innovate Inc': {'IN200': [15000, 9, 2024]}, 'Green Solutions': {'GS300': [12000, 8, 2023]}, 'Future Dynamics': {'FD400': [18000, 12, 2025]}}

然而,df.iterrows()在处理大型DataFrame时效率相对较低。每次迭代都会返回一个Series对象,这涉及到额外的开销。同时,手动检查字典中是否存在外层键 (if company not in nested_dict:) 增加了代码的冗余。

优化方案:Defaultdict与df.values的结合

为了提高效率并简化代码,我们可以利用Python标准库collections中的defaultdict和Pandas DataFrame的底层NumPy数组表示df.values。

collections.defaultdict: defaultdict是dict的一个子类,它允许在访问不存在的键时自动创建该键并赋予一个默认值。在本例中,我们可以将defaultdict(dict)作为外层字典,这样当遇到新的公司名时,会自动创建一个空的内层字典。df.values与扩展解包: df.values属性返回DataFrame中所有数据的NumPy数组表示。直接遍历这个数组比iterrows()更高效。通过使用Python的扩展解包(*操作符),我们可以方便地将一行中的前几个元素分配给特定变量,而将剩余的所有元素收集到一个列表中。

以下是优化后的代码实现:

from collections import defaultdictimport pandas as pd# 示例DataFramedf = pd.DataFrame({    "Company": ["TechCorp", "Innovate Inc", "Green Solutions", "Future Dynamics"],    "Product": ["TC100", "IN200", "GS300", "FD400"],    "Production Cost": [10000, 15000, 12000, 18000],    "Development Time": [6, 9, 8, 12],    "Launch Year": [2023, 2024, 2023, 2025]})# 为了演示defaultdict的优势,我们添加一个TechCorp的新产品df.loc[len(df)] = ['TechCorp', 'TC200', 20000, 12, 2025]nested_dict = defaultdict(dict)# 遍历df.values,使用扩展解包for company, product, *values in df.values:    nested_dict[company][product] = valuesprint(dict(nested_dict)) # 将defaultdict转换为普通dict以便输出

代码解析:

nested_dict = defaultdict(dict):初始化一个defaultdict,其默认工厂函数是dict。这意味着如果nested_dict中尝试访问一个不存在的company键,它会自动创建一个空的普通字典作为该键的值。for company, product, *values in df.values::df.values将DataFrame转换为一个NumPy数组。每次迭代获取数组中的一行。company和product分别捕获行的前两个元素。*values是Python的扩展解包语法,它会收集行中剩余的所有元素,并将它们作为一个列表赋值给values变量。这完美匹配了我们的需求,即其余列的值作为一个列表。

优化后的输出(包含新增数据):

{ 'TechCorp': {'TC100': [10000, 6, 2023], 'TC200': [20000, 12, 2025]}, 'Innovate Inc': {'IN200': [15000, 9, 2024]}, 'Green Solutions': {'GS300': [12000, 8, 2023]}, 'Future Dynamics': {'FD400': [18000, 12, 2025]}}

可以看到,TechCorp下的两个产品及其数据都被正确地聚合到了同一个外层字典中,证明了defaultdict的有效性。

注意事项

列顺序的重要性: 使用df.values时,数据的顺序至关重要。确保DataFrame中作为键的列(Company, Product)位于需要作为值列表的列之前。如果列顺序不符合预期,需要在使用df.values前对DataFrame进行列重排。性能提升: 对于大型数据集,直接遍历df.values通常比iterrows()快得多,因为df.values操作直接在NumPy数组上进行,避免了Pandas Series对象的创建开销。代码简洁性: defaultdict消除了手动检查键是否存在的if语句,使得代码更加简洁和易读。扩展解包也极大地简化了值列表的创建过程。数据类型: df.values返回的NumPy数组中的元素会保留其原始数据类型。在大多数情况下,这不会有问题,但如果需要特定类型转换,可能需要在*values捕获后进行处理。

总结

通过巧妙地结合collections.defaultdict和df.values的扩展解包功能,我们可以显著优化从Pandas DataFrame构建复杂嵌套字典的过程。这种方法不仅提升了代码的执行效率,尤其是在处理大规模数据时,还增强了代码的简洁性和可读性,是Python数据处理中值得推荐的实践。

以上就是高效将Pandas DataFrame转换为嵌套字典的技巧的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1370918.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 10:58:31
下一篇 2025年12月14日 10:58:46

相关推荐

  • 如何解决本地图片在使用 mask JS 库时出现的跨域错误?

    如何跨越localhost使用本地图片? 问题: 在本地使用mask js库时,引入本地图片会报跨域错误。 解决方案: 要解决此问题,需要使用本地服务器启动文件,以http或https协议访问图片,而不是使用file://协议。例如: python -m http.server 8000 然后,可以…

    2025年12月24日
    200
  • 旋转长方形后,如何计算其相对于画布左上角的轴距?

    绘制长方形并旋转,计算旋转后轴距 在拥有 1920×1080 画布中,放置一个宽高为 200×20 的长方形,其坐标位于 (100, 100)。当以任意角度旋转长方形时,如何计算它相对于画布左上角的 x、y 轴距? 以下代码提供了一个计算旋转后长方形轴距的解决方案: const x = 200;co…

    2025年12月24日
    000
  • 旋转长方形后,如何计算它与画布左上角的xy轴距?

    旋转后长方形在画布上的xy轴距计算 在画布中添加一个长方形,并将其旋转任意角度,如何计算旋转后的长方形与画布左上角之间的xy轴距? 问题分解: 要计算旋转后长方形的xy轴距,需要考虑旋转对长方形宽高和位置的影响。首先,旋转会改变长方形的长和宽,其次,旋转会改变长方形的中心点位置。 求解方法: 计算旋…

    2025年12月24日
    000
  • 旋转长方形后如何计算其在画布上的轴距?

    旋转长方形后计算轴距 假设长方形的宽、高分别为 200 和 20,初始坐标为 (100, 100),我们将它旋转一个任意角度。根据旋转矩阵公式,旋转后的新坐标 (x’, y’) 可以通过以下公式计算: x’ = x * cos(θ) – y * sin(θ)y’ = x * …

    2025年12月24日
    000
  • 如何计算旋转后长方形在画布上的轴距?

    旋转后长方形与画布轴距计算 在给定的画布中,有一个长方形,在随机旋转一定角度后,如何计算其在画布上的轴距,即距离左上角的距离? 以下提供一种计算长方形相对于画布左上角的新轴距的方法: const x = 200; // 初始 x 坐标const y = 90; // 初始 y 坐标const w =…

    2025年12月24日
    200
  • CSS元素设置em和transition后,为何载入页面无放大效果?

    css元素设置em和transition后,为何载入无放大效果 很多开发者在设置了em和transition后,却发现元素载入页面时无放大效果。本文将解答这一问题。 原问题:在视频演示中,将元素设置如下,载入页面会有放大效果。然而,在个人尝试中,并未出现该效果。这是由于macos和windows系统…

    2025年12月24日
    200
  • 如何计算旋转后的长方形在画布上的 XY 轴距?

    旋转长方形后计算其画布xy轴距 在创建的画布上添加了一个长方形,并提供其宽、高和初始坐标。为了视觉化旋转效果,还提供了一些旋转特定角度后的图片。 问题是如何计算任意角度旋转后,这个长方形的xy轴距。这涉及到使用三角学来计算旋转后的坐标。 以下是一个 javascript 代码示例,用于计算旋转后长方…

    2025年12月24日
    000
  • 使用 Mask 导入本地图片时,如何解决跨域问题?

    跨域疑难:如何解决 mask 引入本地图片产生的跨域问题? 在使用 mask 导入本地图片时,你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢?让我们深入了解一下: mask 框架假设你以 http(s) 协议加载你的 html 文件,而当使用 file:// 协议打开本地文件时,就会产生跨域…

    2025年12月24日
    200
  • 当父元素仅设置行高时,块级和行内块级元素的行为有何区别?

    当父元素仅设置行高时,块级或行内块级子元素的行为 在 html 中,当父元素仅设置行高 line-height 时,块级或行内块级元素的行为会有所不同。 <line-height: 60px; background-color: antiquewhite; 哈哈哈 行内块级元素(display…

    2025年12月24日
    200
  • 如何使用 CSS 渐变实现仅显示左右两端的多彩边框?

    使用 css 渐变实现多彩边框 在需要给元素添加边框时,我们可以通过 css 的 border-image 属性实现渐变边框效果。例如,以下代码可以设置一个左右两端显示渐变色的边框: border-image: linear-gradient(rgba(255, 255, 255, 0.00) 0%…

    2025年12月24日
    000
  • CSS 样式隔离难题:不同项目如何兼容不同版本组件库?

    CSS 样式隔离难题:不同项目如何兼容不同版本组件库? 在软件开发中,不同的项目经常会使用不同的组件库或框架版本。当这些项目需要集成在一起时,不同样式之间的冲突就成了一个难题。在这个案例中,项目 A 和 B 都使用 ant-design-vue 组件库,但版本不一致。由于部分 A 项目中的组件 CS…

    2025年12月24日
    000
  • 正则表达式在文本验证中的常见问题有哪些?

    正则表达式助力文本输入验证 在文本输入框的验证中,经常遇到需要限定输入内容的情况。例如,输入框只能输入整数,第一位可以为负号。对于不会使用正则表达式的人来说,这可能是个难题。下面我们将提供三种正则表达式,分别满足不同的验证要求。 1. 可选负号,任意数量数字 如果输入框中允许第一位为负号,后面可输入…

    2025年12月24日
    000
  • 如何在 VS Code 中解决折叠代码复制问题?

    解决 VS Code 折叠代码复制问题 在 VS Code 中使用折叠功能可以帮助组织长代码,但使用复制功能时,可能会遇到只复制可见部分的问题。以下是如何解决此问题: 当代码被折叠时,可以使用以下简单操作复制整个折叠代码: 按下 Ctrl + C (Windows/Linux) 或 Cmd + C …

    2025年12月24日
    000
  • 如何相对定位使用 z-index 在小程序中将文字压在图片上?

    如何在小程序中不使用绝对定位压住上面的图片? 在小程序开发中,有时候需要将文字内容压在图片上,但是又不想使用绝对定位来实现。这种情况可以使用相对定位和 z-index 属性来解决。 问题示例: 小程序中的代码如下: 顶顶顶顶 .index{ width: 100%; height: 100vh;}.…

    2025年12月24日
    000
  • 在 Sass 中使用 Mixin

    如果您正在深入研究前端开发世界,那么您很可能遇到过sass(语法很棒的样式表)。 sass 是一个强大的 css 预处理器,它通过提供变量、嵌套、函数和 mixins 等功能来增强您的 css 工作流程。在这些功能中,mixins 作为游戏规则改变者脱颖而出,允许您有效地重用代码并保持样式表的一致性…

    2025年12月24日
    200
  • 为什么多年的经验让我选择全栈而不是平均栈

    在全栈和平均栈开发方面工作了 6 年多,我可以告诉您,虽然这两种方法都是流行且有效的方法,但它们满足不同的需求,并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序,但它们的实现方式却截然不同。如果您在两者之间难以选择,我希望我在两者之间的经验能给您一些有用的见解。 在这篇文章中,我…

    2025年12月24日
    000
  • 姜戈顺风

    本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置 创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

    2025年12月24日
    000
  • 花 $o 学习这些编程语言或免费

    → Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

    2025年12月24日
    000
  • html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

    HTML5无法直接导出video标签内容,需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制;FFmpeg.wasm支持MP4等格式及精细编码控制;服务端方案适合高负载场景。 如果您希望在网页…

    2025年12月23日
    300
  • 如何查看编写的html_查看自己编写的HTML文件效果【效果】

    要查看HTML文件的浏览器渲染效果,需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。 如果您编写了HTML代码,但无法直观看到其在浏览器中的实际渲染效果,则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

    2025年12月23日
    400

发表回复

登录后才能评论
关注微信