Python字典多层级数据提取与广度优先搜索(BFS)实现

Python字典多层级数据提取与广度优先搜索(BFS)实现

本文详细介绍了如何利用Python中的广度优先搜索(BFS)算法,从一个嵌套字典结构中,根据给定的起始列表和目标列表,分层级地提取并组织数据。通过迭代地探索字典中的键值对,直到达到目标值,最终生成一个按迭代层级划分的结果字典,有效解决了复杂数据依赖的遍历问题。

问题场景描述

在处理图结构或层级依赖数据时,我们常会遇到需要从一个字典中,基于一组起始键(source_list)开始,逐步探索其值所对应的键,直到遇到一组目标值(target_list)为止。同时,要求将每层探索到的键值对按其迭代层级(0、1、2…)组织到一个结果字典中。

考虑以下示例数据:

source_list:起始节点列表,例如 [‘a’, ‘b’]target_list:目标节点列表,例如 [‘x’, ‘y’, ‘z’]my_dict:表示图结构的字典,键是节点,值是其相邻节点列表。

source_list = ['a', 'b']target_list = ['x', 'y', 'z']my_dict = {    'a': ['e'],    'b': ['f', 'd'],    'e': ['g'],    'f': ['t', 'h'],    'd': ['x'],    'g': ['x'],    't': ['y'],    'h': ['z']}

期望的输出结果是一个字典,其中键是迭代层级,值是该层级中被探索到的键值对。

{0: {'a': ['e'], 'b': ['f', 'd']}, 1: {'e': ['g'], 'f': ['t', 'h'], 'd': ['x']}, 2: {'g': ['x'], 't': ['y'], 'h': ['z']}}

一个常见的误区是尝试直接迭代,但这可能无法正确处理层级关系,尤其是在 next_dict 的构建逻辑中,若没有正确追踪已访问节点和层级,可能导致结果不完整或不准确,例如只得到第一层的结果:{0: {‘a’: [‘e’], ‘b’: [‘f’, ‘d’]}}。

广度优先搜索(BFS)原理

解决这类分层探索问题的理想算法是广度优先搜索(BFS)。BFS 是一种用于遍历或搜索树或图的算法。它从图的根(或任意给定节点)开始,首先探索所有相邻节点,然后对于每个相邻节点,再探索其所有相邻节点,以此类推。这种“一层一层”向外扩展的特性,使其非常适合按层级收集数据。

立即学习“Python免费学习笔记(深入)”;

BFS 的核心思想是使用队列(deque)来管理待访问的节点。每次从队列中取出一个节点,访问其所有未访问的邻居,并将这些邻居加入队列。为了避免重复访问和无限循环(在有环图中),通常会使用一个 seen 集合来记录已访问过的节点。

BFS 解决方案一:基础实现

以下是一个基于 BFS 思想的函数 bfs,它能够根据 source_list 和 target_list 从 graph(即 my_dict)中分层提取数据。

from collections import dequedef bfs(source, target, graph):    """    使用广度优先搜索从图中分层提取数据。    Args:        source (list): 起始节点列表。        target (list): 目标节点列表。        graph (dict): 表示图结构的字典,键为节点,值为其相邻节点列表。    Returns:        dict: 按迭代层级组织的字典,键为层级,值为该层级中的键值对。    """    # 初始化队列,存储 (层级, 节点) 对    queue = deque((0, node) for node in source)    # 将目标列表转换为集合,以便快速查找    target_set = set(target)    # 记录已访问过的节点,防止重复和循环    seen = set(source) # 初始时,source_list中的节点已被“访问”    result = {}    while queue:        level, node = queue.popleft() # 取出当前层级和节点        # 获取当前节点的邻居,如果节点不在图中,则视为空列表        neighbors = graph.get(node, [])         # 将当前节点及其邻居添加到结果字典的对应层级中        result.setdefault(level, {})[node] = neighbors.copy()        for neighbor in neighbors:            # 如果邻居节点已访问过,或它就是目标节点之一,则跳过            if neighbor in seen or neighbor in target_set:                continue            # 标记邻居节点为已访问            seen.add(neighbor)            # 将邻居节点及其下一层级添加到队列            queue.append((level + 1, neighbor))    return result# 示例调用source_list = ['a', 'b']target_list = ['x', 'y', 'z']my_dict = {    'a': ['e'],    'b': ['f', 'd'],    'e': ['g'],    'f': ['t', 'h'],    'd': ['x'],    'g': ['x'],    't': ['y'],    'h': ['z']}output = bfs(source_list, target_list, my_dict)print(output)

输出:

{0: {'a': ['e'], 'b': ['f', 'd']}, 1: {'e': ['g'], 'f': ['t', 'h'], 'd': ['x']}, 2: {'g': ['x'], 't': ['y'], 'h': ['z']}}

代码解析:

queue 初始化:存储元组 (level, node),level 表示当前节点所在的层级。初始时,source_list 中的所有节点都在第 0 层。target_set 和 seen:target_set 用于高效判断节点是否为目标节点。seen 集合用于记录所有已入队或已处理的节点,防止重复处理和陷入循环。while queue 循环:BFS 的主循环,当队列非空时持续进行。level, node = queue.popleft():从队列头部取出当前待处理的节点及其层级。result.setdefault(level, {})[node] = neighbors.copy():将当前节点及其邻居添加到 result 字典中对应 level 的子字典里。setdefault 确保 level 键存在。遍历 neighbors:对当前节点的所有邻居进行迭代。if neighbor in seen or neighbor in target_set:如果邻居已访问过,或者它就是 target_list 中的一个值,则不将其加入队列,因为我们不需要继续探索这些路径。seen.add(neighbor) 和 queue.append((level + 1, neighbor)):将未访问且非目标的邻居标记为已访问,并将其与下一层级 level + 1 一起加入队列。

BFS 解决方案二:优化层级构建

为了更清晰地构建每个层级的结果,可以对 BFS 过程进行优化,将每个层级的节点处理逻辑封装在一个辅助函数中。这种方法通过在一个内部循环中处理完当前层级的所有节点,然后才递增层级计数。

from collections import dequedef solution(source, target, graph):    """    使用优化的广度优先搜索从图中分层提取数据。    Args:        source (list): 起始节点列表。        target (list): 目标节点列表。        graph (dict): 表示图结构的字典,键为节点,值为其相邻节点列表。    Returns:        dict: 按迭代层级组织的字典,键为层级,值为该层级中的键值对。    """    target_set = set(target)    result = {}    # 初始时,将source_list中的所有节点标记为已访问,并加入队列    seen = set(source)    queue = deque(source)    level = 0    while queue:        # 构建当前层级的所有键值对        result[level] = build_level_dict(graph, queue, seen, target_set)        level += 1 # 进入下一层    return resultdef build_level_dict(graph, queue, seen, target_set):    """    辅助函数,用于构建当前BFS层级的字典。    """    # 记录当前层级队列的尾部节点,作为当前层级结束的标志    tail = queue[-1]     level_dict = {}    while True:        node = queue.popleft() # 取出当前层级的节点        # 获取当前节点的邻居,如果节点不在图中,则视为空列表        neighbors = graph.get(node, [])        level_dict[node] = neighbors.copy() # 添加到当前层级字典        for neighbor in neighbors:            # 如果邻居节点已访问过,或它就是目标节点之一,则跳过            if neighbor in seen or neighbor in target_set:                continue            seen.add(neighbor) # 标记邻居节点为已访问            queue.append(neighbor) # 将邻居节点添加到队列,等待下一层处理        if node == tail: # 如果当前节点是本层级的最后一个节点,则本层处理完毕            return level_dict# 示例调用source_list = ['a', 'b']target_list = ['x', 'y', 'z']my_dict = {    'a': ['e'],    'b': ['f', 'd'],    'e': ['g'],    'f': ['t', 'h'],    'd': ['x'],    'g': ['x'],    't': ['y'],    'h': ['z']}output_optimized = solution(source_list, target_list, my_dict)print(output_optimized)

输出:

{0: {'a': ['e'], 'b': ['f', 'd']}, 1: {'e': ['g'], 'f': ['t', 'h'], 'd': ['x']}, 2: {'g': ['x'], 't': ['y'], 'h': ['z']}}

代码解析:

solution 函数:负责初始化 seen、queue 和 level,并主导层级迭代。build_level_dict 辅助函数:通过 tail = queue[-1] 记录当前层级在队列中的最后一个节点。内部 while True 循环持续从队列中取出节点,直到遇到 tail 节点,表示当前层级的所有节点都已处理完毕。处理逻辑与基础 BFS 类似,将节点的邻居加入队列,并更新 seen 集合。返回构建好的 level_dict。

这种优化版本在某些情况下可能稍微快一些,因为它避免了在队列中存储层级信息(level),而是通过外部循环和 tail 标记来管理层级,从而减少了每次 popleft 和 append 操作的数据量。

注意事项

图的类型:如果 my_dict 保证是一个树结构(无环图),那么 seen 集合可以移除,因为不会有重复访问的节点。但在大多数实际应用中,为了健壮性,保留 seen 是一个好习惯,以应对可能存在的循环引用。内存消耗:对于非常大的图,seen 集合和 queue 可能会占用大量内存。需要根据实际情况评估内存使用。目标节点处理:一旦遇到 target_list 中的节点,我们停止沿着该路径继续探索。这意味着 target_list 中的节点本身不会作为键出现在 result 字典的任何层级中,而是作为某个键的“值”出现,并且其子节点不会被进一步探索。键不存在:在获取 neighbors 时,使用了 graph.get(node, []),这可以优雅地处理 node 不在 graph 中的情况,避免 KeyError。

总结

通过本文的介绍,我们了解了如何利用广度优先搜索(BFS)算法有效地从一个 Python 字典中,根据起始节点和目标节点,分层级地提取和组织数据。无论是基础的 BFS 实现还是通过辅助函数优化层级构建的版本,核心都在于利用队列的先进先出特性和 seen 集合来保证按层级遍历且不重复。这种方法在处理依赖关系、路径查找或层级数据展示等场景中具有广泛的应用价值。

以上就是Python字典多层级数据提取与广度优先搜索(BFS)实现的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1375875.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
如何在Python中关联类:以Franchise和Menu为例
上一篇 2025年12月14日 15:24:42
使用 Pandas 透视表并从其他 DataFrame 填充缺失值
下一篇 2025年12月14日 15:24:56

相关推荐

  • python怎么复制文件夹

    在 Python 中复制文件夹有两种方法:使用 shutil.copytree() 函数递归复制文件夹和内容。使用 os 模块创建目标文件夹,遍历源文件夹并复制文件。 如何使用 Python 复制文件夹 在 Python 中复制文件夹非常简单,可以通过以下方法实现: 1. 使用 shutil 模块 …

    2026年5月10日
    000
  • 构建交互式粘性分屏布局:实现滚动内容与固定侧边动态展示

    本教程详细介绍了如何使用CSS构建一个类似Calendly的交互式分屏布局。该布局包含一个可滚动的主内容区域和一个固定在视口侧边的粘性面板。我们将利用Flexbox实现分屏结构,并结合position: sticky属性确保侧边面板在滚动时保持可见。文章还涵盖了布局细节、代码示例及实现动态内容切换的…

    2026年5月10日
    000
  • c++怎么处理Unicode字符串

    c++++处理unicode字符串的方法包括使用std::wstring、std::wstring_convert和第三方库如icu。1) 使用std::wstring存储和输出unicode字符串。2) 通过std::wstring_convert进行编码转换。3) 使用icu库简化unicode…

    2026年5月10日
    000
  • 解决Django中自定义ForeignKey表单字段的必填问题

    本教程旨在解决Django应用中,尽管模型层已将ForeignKey字段设置为可选(blank=True, null=True),但在自定义表单中该字段仍被强制要求填写的问题。核心解决方案是在自定义的forms.ModelChoiceField中明确设置required=False,以确保表单验证与…

    2026年5月10日
    000
  • Go语言中HTTP POST请求头的正确设置:Content-Type的重要性

    本文探讨在go语言中发送http post请求时如何正确添加请求头。通过分析一个常见问题,我们发现`content-type`头对于服务器正确解析请求体至关重要,特别是当发送`application/x-www-form-urlencoded`格式的数据时。文章将提供示例代码,并强调调试网络请求的技…

    2026年5月10日
    000
  • Python Pandas:根据指定分隔符及大写字母规则拆分字符串列

    本文介绍了如何使用 Python Pandas 库,根据包含大写字母的特定分隔符拆分字符串列。我们将探讨使用 str.extract 函数结合正则表达式来实现这一目标,并提供详细的代码示例和解释,帮助你理解和应用这种方法。 在数据处理中,经常会遇到需要根据特定规则拆分字符串列的情况。例如,我们需要根…

    2026年5月10日
    000
  • 以太坊和比特币的区别_主要差异在哪里

    比特币是去中心化电子现金,专注价值存储与转移;以太坊是可编程平台,支持智能合约与去中心化应用,二者在定位、技术与生态上根本不同。 以太坊和比特币:不仅仅是数字资产的差异 当人们谈论加密世界时,比特币和以太坊是两个无法绕开的名字。虽然它们常常被并列提及,但实际上,两者在设计哲学、核心功能和未来愿景上存…

    2026年5月10日
    000
  • 使用JS动态生成HTML时如何管理状态_使用JS动态生成HTML时如何管理状态策略

    答案:管理JavaScript动态生成HTML的状态需以数据驱动UI。1. 使用单一数据源确保状态集中,如将用户信息存于对象中,更新时先改数据再重新渲染;2. 封装状态与逻辑,用类组织数据和方法,调用方法后自动刷新视图;3. 借鉴响应式模式,通过Proxy监听状态变化并自动更新界面;4. 避免频繁直…

    2026年5月10日
    000
  • python中canvas颜色有哪些

    python中canvas颜色有基本颜色、RGB颜色、十六进制颜色和随机颜色。详细介绍:1、基本颜色,如红色、绿色、蓝色、黄色、黑色、白色等,这些颜色可以通过直接使用它们的名称来使用;2、RGB颜色模式是通过红色、绿色和蓝色的组合来创建颜色的一种方式;3、十六进制颜色码是通过在#字符后面跟随6位16…

    2026年5月10日
    000
  • php数据库如何实现增删改查 php数据库基本操作的综合教程

    使用PDO实现PHP数据库操作,需通过预处理语句执行增删改查。1. 连接数据库时设置DSN和异常模式;2. 插入数据使用prepare与execute防止SQL注入;3. 查询用fetchAll或fetch获取结果;4. 更新和删除同样采用预处理绑定参数,确保安全。核心是始终使用预处理机制避免拼接S…

    2026年5月10日
    000
  • c++中decltype关键字的用法 _c++ decltype关键字解析

    decltype 是 C++11 关键字,用于编译时推导表达式类型,包含引用和 const 限定符;其规则分三种情况:标识符或成员访问返回声明类型,加括号的表达式视为左值返回 T&,函数调用或右值返回确切类型但不带引用;常用于模板、泛型编程和尾置返回类型,如 decltype(t + u) …

    2026年5月10日
    000
  • python进程的交流方式

    Python中进程间通信主要有四种方式:1. multiprocessing.Queue支持跨进程安全的数据传递,适用于多生产者消费者场景;2. multiprocessing.Pipe提供双向通信通道,适合两个进程间的点对点高效通信;3. Value和Array通过共享内存实现简单数据类型共享,性…

    2026年5月10日
    000
  • Golang如何配置环境以支持Go get_Golang依赖下载与环境配置全攻略

    正确配置Go环境并启用Modules是使用go get的前提。需安装Go并设置GOROOT、GOPATH和PATH;在项目根目录执行go mod init初始化模块;通过go get下载依赖,建议配置GOPROXY代理如https://goproxy.cn以加速国内下载;遇到问题时检查包名、代理设置…

    2026年5月10日
    000
  • 非关联元素悬停交互:使用JavaScript动态调整DIV亮度

    本文详细介绍了如何通过javascript实现对非关联html元素进行悬停交互效果,具体演示了当鼠标悬停在一个`div`上时,如何动态改变另一个`div`的亮度。教程涵盖了html结构、javascript事件监听与css `filter`属性的应用,并提供了完整的代码示例、平滑过渡效果的实现以及最…

    2026年5月10日
    000
  • Python网络爬虫:应对动态CSS类名选择的策略

    在Python网络爬虫中,面对现代网站动态生成的随机CSS类名(如media-story-card__body__3tRWy)是常见挑战。本文将详细介绍如何利用CSS属性选择器,特别是“以…开头”的选择器([attribute^=”value”]),来有效定位这些…

    2026年5月10日
    100
  • 获取 Android WebView 新窗口 URL 的正确方法

    本文档旨在解决 Android WebView 中 `onCreateWindow` 方法无法直接获取 `window.open()` 打开的新窗口 URL 的问题。通过重写 `WebViewClient` 的 `shouldOverrideUrlLoading` 方法,并结合 `WebChrome…

    2026年5月10日
    000
  • 解决Laravel Tinker工厂创建数据错误:代码变更不生效与类型转换陷阱

    本文探讨了在使用Laravel Tinker通过工厂创建数据时常见的错误,特别是“数组到字符串转换”和类型不匹配问题。核心原因在于Tinker会缓存应用状态,导致代码变更后不立即生效。文章将详细解释这些问题,提供解决方案,并分享使用Tinker进行开发和调试的最佳实践,强调在修改代码后重启Tinke…

    2026年5月10日
    000
  • Go语言:不使用 flags 包获取命令行参数的实践

    本文将深入探讨在Go语言中,如何在不依赖标准库flags包的情况下,直接获取和处理命令行参数。通过使用os.Args,开发者可以访问程序启动时传入的原始参数切片,这对于实现自定义的、符合特定规范(如GNU风格)的命令行解析器至关重要。文章将提供详细的代码示例,并解析os.Args的结构与应用场景,帮…

    2026年5月10日
    000
  • 将React组件转换为Qwik组件:qwik-react 的使用与考量

    本文旨在阐述如何使用 `qwik-react` 将 React 组件集成到 Qwik 应用中。我们将深入探讨 `qwikify$` 的作用机制,分析其在迁移 React 应用到 Qwik 时的优势与局限性,并强调过度使用 `qwikify$` 可能带来的性能问题。同时,本文还将讨论在 Qwik 项目…

    2026年5月10日
    000
  • 解决 Carbon::parse 无法解析复杂数据结构中的日期时间字符串问题

    本教程详细阐述了在使用 carbon 解析日期时间时,如何处理来自数据库查询结果或 json 字符串等复杂数据结构中嵌套的 `created_at` 字段。文章将通过示例代码演示如何正确提取日期时间字符串,并将其转换为 carbon 实例,从而避免常见的解析错误,并顺利进行日期时间操作,如添加天数和…

    2026年5月10日
    000

发表回复

登录后才能评论
关注微信