从多层目录导入字典构建Pandas DataFrame

从多层目录导入字典构建Pandas DataFrame

本文详细阐述了如何从嵌套目录结构中的多个python文件中提取字典数据,并将其整合构建成一个pandas dataframe。教程涵盖了文件系统遍历、python文件内容读取、安全地将字符串表示的字典转换为实际字典对象,以及最终使用pandas库进行数据框的构建与合并。通过本教程,读者将学会如何自动化处理分散在项目文件中的结构化配置数据。

软件开发和数据处理的场景中,我们经常会遇到需要从项目结构中分散的多个文件中收集特定数据的情况。例如,在一个包含多层子目录的项目中,每个子目录可能包含一个Python文件(如form.py),这些文件内部定义了一个或多个字典,用于存储配置或元数据。这些字典通常具有相同的键结构,但值各异。本教程将指导您如何高效地遍历这些文件,提取所需的字典,并最终将它们合并成一个统一的Pandas DataFrame,以便于后续的数据分析或报告。

1. 文件系统遍历与目标文件识别

首先,我们需要一种机制来遍历复杂的目录结构,找到所有包含目标字典的Python文件。Python的os模块提供了强大的文件系统操作功能,其中os.walk()是遍历目录树的理想工具

os.walk(top)会生成一个三元组(dirpath, dirnames, filenames),分别代表当前目录路径、当前目录下的子目录列表和当前目录下的文件列表。我们可以利用这一特性来定位所有符合条件的文件。

假设我们的目标文件名为form.py,并且它们位于一个基础路径(例如os.environ[“JUPYTER_ROOT”] + “/charts/”)下的任意子目录中。

import osimport pandas as pdimport ast # 用于安全地评估字符串为Python对象# 定义您的基础路径base_path = os.environ.get("JUPYTER_ROOT", "/home/jovyan/work/notebooks") + "/charts/"# 初始化一个空列表来存储所有提取的字典all_dictionaries = []for root, dirs, files in os.walk(base_path):    for file in files:        if file.endswith("form.py"):            file_path = os.path.join(root, file)            # 后续步骤将在此处处理每个文件            print(f"发现文件: {file_path}")

在上述代码中,os.path.join(root, file)用于构建文件的完整路径,确保跨操作系统的路径兼容性。

2. 从Python文件中安全提取字典

找到目标文件后,下一步是打开文件并从中提取字典。由于这些字典是作为Python代码的一部分存在的(例如def_options = {‘name’: ‘…’, ‘age’: …}),我们不能简单地将其视为JSON或YAML文件。直接使用eval()函数来解析文件内容是危险的,因为它可能执行任意代码。相反,ast.literal_eval()是一个更安全的替代方案,它只能评估包含Python字面量结构(字符串、数字、元组、列表、字典、布尔值和None)的字符串。

为了确保只提取到我们想要的字典,我们需要:

即构数智人 即构数智人

即构数智人是由即构科技推出的AI虚拟数字人视频创作平台,支持数字人形象定制、短视频创作、数字人直播等。

即构数智人 36 查看详情 即构数智人 逐行读取文件内容。识别包含字典定义的行。这通常可以通过检查行中是否包含字典的关键键(例如”name”和”age”)以及字典赋值的模式(例如def_options = { … })来实现。从该行中提取纯粹的字典字符串部分。使用ast.literal_eval()将其转换为Python字典对象。

# ... (承接上一步的代码)for root, dirs, files in os.walk(base_path):    for file in files:        if file.endswith("form.py"):            file_path = os.path.join(root, file)            print(f"正在处理文件: {file_path}")            with open(file_path, "r", encoding="utf-8") as f:                for line in f:                    data_str = line.strip()                    # 检查行是否包含我们预期的字典内容和赋值模式                    # 假设字典定义模式为 'variable_name = { ... }'                    # 并且字典内包含 'name' 和 'age' 键                    if "def_options =" in data_str and "'name'" in data_str and "'age'" in data_str:                        try:                            # 提取等号右侧的字典字符串                            # 注意:这里假设字典定义在单行                            data_dic_only = data_str.split("=", 1)[1].strip()                            # 使用 ast.literal_eval 安全地将字符串转换为字典                            dictionary = ast.literal_eval(data_dic_only)                            all_dictionaries.append(dictionary)                            print(f"  成功提取字典: {dictionary}")                            # 假设每个文件只包含一个目标字典,提取后即可跳出内层循环                            break                         except (ValueError, SyntaxError) as e:                            print(f"  警告: 无法从文件 {file_path} 的行 '{data_str}' 中解析字典: {e}")                            continue # 继续查找下一行

注意事项:

encoding=”utf-8″:在打开文件时指定编码是一个好习惯,可以避免因编码问题导致的错误。data_str.split(“=”, 1)[1].strip():这行代码将字符串在第一个等号处分割,并取第二部分(即等号右侧),然后去除首尾空白。这要求字典定义严格遵守variable_name = { … }的格式且在单行。错误处理:try-except块用于捕获ast.literal_eval可能抛出的ValueError或SyntaxError,这在处理格式不一致的文件时非常重要。字典键检查:”‘name'” in data_str and “‘age'” in data_str是一个简单的启发式方法来判断当前行是否包含目标字典。更健壮的方法可能需要正则表达式,或者如果字典定义有固定的变量名,可以直接检查data_str.startswith(“def_options =”)。

3. 构建与合并Pandas DataFrame

一旦我们收集了所有提取到的字典,最后一步就是将它们转换成Pandas DataFrame并合并。每个字典可以被视为DataFrame的一行数据。

# ... (承接上一步的代码)# 确保 all_dictionaries 不为空if all_dictionaries:    # 将字典列表转换为Pandas DataFrame    # from_records 可以处理字典列表,并自动将键作为列名    final_df = pd.DataFrame.from_records(all_dictionaries)    print("n成功构建最终DataFrame:")    print(final_df.head())    print(f"nDataFrame形状: {final_df.shape}")else:    print("n未找到任何符合条件的字典,无法构建DataFrame。")

pd.DataFrame.from_records(all_dictionaries)是处理字典列表的推荐方法,它会自动将每个字典的键作为DataFrame的列,并将字典的值作为对应行的值。如果所有字典的键都相同,这将生成一个结构规整的DataFrame。如果键不完全一致,Pandas会自动用NaN填充缺失值。

总结

通过上述步骤,我们构建了一个完整的解决方案,能够:

使用os.walk()遍历复杂的文件系统结构,定位目标Python文件。安全地使用ast.literal_eval()从Python文件中提取字典字符串并将其转换为Python字典对象,避免了eval()带来的安全风险。利用Pandas的强大功能,将所有提取到的字典高效地整合为一个统一的DataFrame。

这个方法对于自动化处理项目配置、元数据或其他以Python字典形式分散存储的数据非常有效,极大地提高了数据收集和预处理的效率。在实际应用中,您可能需要根据字典定义的具体格式和复杂性,调整文件内容解析的逻辑,例如使用正则表达式来处理更复杂的字典定义模式,或者考虑字典跨多行的情况。

以上就是从多层目录导入字典构建Pandas DataFrame的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/587801.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月10日 14:03:26
下一篇 2025年11月10日 14:04:52

相关推荐

  • 如何解决本地图片在使用 mask JS 库时出现的跨域错误?

    如何跨越localhost使用本地图片? 问题: 在本地使用mask js库时,引入本地图片会报跨域错误。 解决方案: 要解决此问题,需要使用本地服务器启动文件,以http或https协议访问图片,而不是使用file://协议。例如: python -m http.server 8000 然后,可以…

    2025年12月24日
    200
  • 使用 Mask 导入本地图片时,如何解决跨域问题?

    跨域疑难:如何解决 mask 引入本地图片产生的跨域问题? 在使用 mask 导入本地图片时,你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢?让我们深入了解一下: mask 框架假设你以 http(s) 协议加载你的 html 文件,而当使用 file:// 协议打开本地文件时,就会产生跨域…

    2025年12月24日
    200
  • Bear 博客上的浅色/深色模式分步指南

    我最近使用偏好颜色方案媒体功能与 light-dark() 颜色函数相结合,在我的 bear 博客上实现了亮/暗模式切换。 我是这样做的。 第 1 步:设置 css css 在过去几年中获得了一些很酷的新功能,包括 light-dark() 颜色函数。此功能可让您为任何元素指定两种颜色 &#8211…

    2025年12月24日
    100
  • 如何在 Web 开发中检测浏览器中的操作系统暗模式?

    检测浏览器中的操作系统暗模式 在 web 开发中,用户界面适应操作系统(os)的暗模式设置变得越来越重要。本文将重点介绍检测浏览器中 os 暗模式的方法,从而使网站能够针对不同模式调整其设计。 w3c media queries level 5 最新的 web 标准引入了 prefers-color…

    2025年12月24日
    000
  • 如何使用 CSS 检测操作系统是否处于暗模式?

    如何在浏览器中检测操作系统是否处于暗模式? 新发布的 os x 暗模式提供了在 mac 电脑上使用更具沉浸感的用户界面,但我们很多人都想知道如何在浏览器中检测这种设置。 新标准 检测操作系统暗模式的解决方案出现在 w3c media queries level 5 中的最新标准中: 立即学习“前端免…

    2025年12月24日
    000
  • 如何检测浏览器环境中的操作系统暗模式?

    浏览器环境中的操作系统暗模式检测 在如今科技的海洋中,越来越多的设备和软件支持暗模式,以减少对眼睛的刺激并营造更舒适的视觉体验。然而,在浏览器环境中检测操作系统是否处于暗模式却是一个令人好奇的问题。 检测暗模式的标准 要检测操作系统在浏览器中是否处于暗模式,web 开发人员可以使用 w3c 的媒体查…

    2025年12月24日
    200
  • 浏览器中如何检测操作系统的暗模式设置?

    浏览器中的操作系统暗模式检测 近年来,随着用户对夜间浏览体验的偏好不断提高,操作系统已开始引入暗模式功能。作为一名 web 开发人员,您可能想知道如何检测浏览器中操作系统的暗模式状态,以相应地调整您网站的设计。 新 media queries 水平 w3c 的 media queries level…

    2025年12月24日
    000
  • 正则表达式在文本验证中的常见问题有哪些?

    正则表达式助力文本输入验证 在文本输入框的验证中,经常遇到需要限定输入内容的情况。例如,输入框只能输入整数,第一位可以为负号。对于不会使用正则表达式的人来说,这可能是个难题。下面我们将提供三种正则表达式,分别满足不同的验证要求。 1. 可选负号,任意数量数字 如果输入框中允许第一位为负号,后面可输入…

    2025年12月24日
    000
  • 我在学习编程的第一周学到的工具

    作为一个刚刚完成中学教育的女孩和一个精通技术并热衷于解决问题的人,几周前我开始了我的编程之旅。我的名字是OKESANJO FATHIA OPEYEMI。我很高兴能分享我在编码世界中的经验和发现。拥有计算机科学背景的我一直对编程提供的无限可能性着迷。在这篇文章中,我将反思我在学习编程的第一周中获得的关…

    2025年12月24日
    000
  • 为什么多年的经验让我选择全栈而不是平均栈

    在全栈和平均栈开发方面工作了 6 年多,我可以告诉您,虽然这两种方法都是流行且有效的方法,但它们满足不同的需求,并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序,但它们的实现方式却截然不同。如果您在两者之间难以选择,我希望我在两者之间的经验能给您一些有用的见解。 在这篇文章中,我…

    2025年12月24日
    000
  • 姜戈顺风

    本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置 创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

    2025年12月24日
    000
  • 花 $o 学习这些编程语言或免费

    → Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

    2025年12月24日
    000
  • 深入理解CSS框架与JS之间的关系

    深入理解CSS框架与JS之间的关系 在现代web开发中,CSS框架和JavaScript (JS) 是两个常用的工具。CSS框架通过提供一系列样式和布局选项,可以帮助我们快速构建美观的网页。而JS则提供了一套功能强大的脚本语言,可以为网页添加交互和动态效果。本文将深入探讨CSS框架和JS之间的关系,…

    2025年12月24日
    000
  • HTML+CSS+JS实现雪花飘扬(代码分享)

    使用html+css+js如何实现下雪特效?下面本篇文章给大家分享一个html+css+js实现雪花飘扬的示例,希望对大家有所帮助。 很多南方的小伙伴可能没怎么见过或者从来没见过下雪,今天我给大家带来一个小Demo,模拟了下雪场景,首先让我们看一下运行效果 可以点击看看在线运行:http://hai…

    2025年12月24日 好文分享
    500
  • 10款好看且实用的文字动画特效,让你的页面更吸引人!

    图片和文字是网页不可缺少的组成部分,图片运用得当可以让网页变得生动,但普通的文字不行。那么就可以给文字添加一些样式,实现一下好看的文字效果,让页面变得更交互,更吸引人。下面创想鸟就来给大家分享10款文字动画特效,好看且实用,快来收藏吧! 1、网页玻璃文字动画特效 模板简介:使用css3制作网页渐变底…

    2025年12月24日 好文分享
    000
  • tp5如何引入css文件

    tp5引入css文件的方法:1、将css文件放在public目录下的static文件里即可;2、在页面引入中写上“”语句即可。 本教程操作环境:windows7系统、CSS3&&HTML5版、Dell G3电脑。 其实很简单,只需要将css,js,image文件放在这个目录下即可 页…

    2025年12月24日
    000
  • 聊聊CSS 与 JS 是如何阻塞 DOM 解析和渲染的

    本篇文章给大家介绍一下css和js阻塞 dom 解析和渲染的原理。有一定的参考价值,有需要的朋友可以参考一下,希望对大家有所帮助。 hello~各位亲爱的看官老爷们大家好。估计大家都听过,尽量将CSS放头部,JS放底部,这样可以提高页面的性能。然而,为什么呢?大家有考虑过么?很长一段时间,我都是知其…

    2025年12月24日
    200
  • js如何修改css样式

    js修改css样式的方法:1、使用【obj.className】来修改样式表的类名;2、使用【obj.style.cssTest】来修改嵌入式的css;3、使用【obj.className】来修改样式表的类名;4、使用更改外联的css。 本教程操作环境:windows7系统、css3版,DELL G…

    2025年12月24日
    000
  • 如何使用纯CSS、JS实现图片轮播效果

    本篇文章给大家详细介绍一下使用纯css、js实现图片轮播效果的方法。有一定的参考价值,有需要的朋友可以参考一下,希望对大家有所帮助。 .carousel {width: 648px;height: 400px;margin: 0 auto;text-align: center;position: a…

    2025年12月24日
    000
  • css怎么设置文件编码

    在css中,可以使用“@charset”规则来设置编码,语法格式“@charset “字符编码类型”;”。“@charset”规则可以指定样式表中使用的字符编码,它必须是样式表中的第一个元素,并且不能以任何字符开头。 本教程操作环境:windows7系统、CSS3&&…

    2025年12月24日
    000

发表回复

登录后才能评论
关注微信