使用广度优先搜索(BFS)按层级提取Python字典数据

使用广度优先搜索(BFS)按层级提取Python字典数据

本文详细介绍了如何利用广度优先搜索(BFS)算法,从一个表示图结构的Python字典中,按层级(迭代次数)提取数据。通过指定起始节点(source_list)和目标节点(target_list),我们将逐步遍历字典,收集每个层级的节点及其邻居,并以结构化的字典形式输出,同时避免重复访问和循环,直至达到目标节点边界。

1. 问题背景与目标

在处理复杂数据结构时,我们常会遇到需要按层级或深度遍历的情况。考虑以下场景:给定一个字典my_dict,它表示一个有向图的邻接列表,其中键是节点,值是其直接邻居的列表。我们还拥有一个起始节点列表source_list和一个目标节点列表target_list。我们的目标是从source_list中的节点开始,逐层遍历my_dict,收集每个层级的节点及其邻居,直到我们遇到的邻居节点包含target_list中的元素。最终输出应是一个字典,其键为遍历的层级(迭代次数),值为该层级中所有被访问节点及其邻居的子字典。

例如,给定以下数据:

source_list = ['a', 'b']target_list = ['x', 'y', 'z']my_dict = {    'a': ['e'],    'b': ['f', 'd'],    'e': ['g'],    'f': ['t', 'h'],    'd': ['x'],    'g': ['x'],    't': ['y'],    'h': ['z']}

期望的输出是:

{0: {'a': ['e'], 'b': ['f', 'd']}, 1: {'e': ['g'], 'f': ['t', 'h'], 'd': ['x']}, 2: {'g': ['x'], 't': ['y'], 'h': ['z']}}

2. 核心概念:广度优先搜索 (BFS)

广度优先搜索(BFS)是一种用于遍历或搜索树或图的算法。它从图的根(或任意源节点)开始,首先访问其所有邻居节点,然后访问这些邻居的邻居,依此类推。这种“层层推进”的特性使其非常适合解决按层级遍历的问题。

BFS通常使用队列(Queue)数据结构来实现。基本步骤如下:

立即学习“Python免费学习笔记(深入)”;

将起始节点加入队列。标记起始节点为已访问。当队列非空时:从队列中取出一个节点。处理该节点(例如,记录其信息)。将其所有未访问过的邻居加入队列,并标记为已访问。

在我们的问题中,我们需要扩展BFS以记录每个节点的层级,并在遇到目标节点时停止进一步探索。

3. BFS 实现方案

我们将构建一个bfs函数来解决这个问题。该函数将接收source(起始节点列表)、target(目标节点列表)和graph(表示图的字典)作为参数。

from collections import dequedef bfs(source, target, graph):    """    使用广度优先搜索(BFS)按层级提取字典数据。    Args:        source (list): 起始节点列表。        target (list): 目标节点列表。当邻居节点中包含目标节点时,停止进一步探索。        graph (dict): 表示图的字典,键是节点,值是其邻居列表。    Returns:        dict: 结构化输出,键为层级(迭代次数),值为该层级中所有被访问节点及其邻居的子字典。    """    # 初始化队列,存储 (层级, 节点) 对    queue = deque((0, node) for node in source)    # 将目标列表转换为集合,以便进行O(1)的快速查找    target_set = set(target)    # 记录已访问过的节点,防止循环和重复处理    seen = set(source) # 初始时,source_list中的节点已被视为“已访问”    result = {} # 存储最终结果    while queue:        level, node = queue.popleft() # 取出当前层级和节点        # 确保当前节点在图中存在,避免KeyError        if node not in graph:            continue        neighbors = graph[node] # 获取当前节点的邻居        # 将当前节点及其邻居添加到结果字典中对应层级        # setdefault确保如果层级不存在,则创建一个空字典        result.setdefault(level, {})[node] = neighbors.copy()        # 遍历当前节点的邻居        for neighbor in neighbors:            # 如果邻居节点已访问过,或者邻居节点是目标节点,则不将其加入队列            # 这样可以在达到目标节点时停止进一步探索,并避免循环            if neighbor in seen or neighbor in target_set:                continue            # 标记邻居节点为已访问            seen.add(neighbor)            # 将邻居节点及其下一层级加入队列            queue.append((level + 1, neighbor))    return result# 示例数据source_list = ['a', 'b']target_list = ['x', 'y', 'z']my_dict = {    'a': ['e'],    'b': ['f', 'd'],    'e': ['g'],    'f': ['t', 'h'],    'd': ['x'],    'g': ['x'],    't': ['y'],    'h': ['z']}# 运行BFS函数output = bfs(source_list, target_list, my_dict)print(output)

输出:

{0: {'a': ['e'], 'b': ['f', 'd']}, 1: {'e': ['g'], 'f': ['t', 'h'], 'd': ['x']}, 2: {'g': ['x'], 't': ['y'], 'h': ['z']}}

4. 优化方案:按层级构建结果

上述BFS实现每次从队列中取出一个节点就处理。对于某些场景,如果希望在处理完一个完整层级的所有节点后再统一构建该层级的结果,可以采用一种略微不同的方法。这种方法通过在一个内部循环中处理当前层级的所有节点,从而更明确地按层级组织数据。

from collections import dequedef solution(source, target, graph):    """    优化版BFS,按层级构建结果。    Args:        source (list): 起始节点列表。        target (list): 目标节点列表。        graph (dict): 表示图的字典。    Returns:        dict: 结构化输出,键为层级,值为该层级中所有被访问节点及其邻居的子字典。    """    target_set = set(target)    result = {}    # seen集合在初始化时就包含所有source节点,避免重复添加到队列    seen = set(source)    # 队列初始化为所有source节点,不带层级信息,层级在外部循环中管理    queue = deque(source)    level = 0    while queue:        # 调用辅助函数构建当前层级的结果        result[level] = build_level_dict(graph, queue, seen, target_set)        level += 1    return resultdef build_level_dict(graph, queue, seen, target_set):    """    辅助函数,用于构建当前层级的字典。    在内部循环中处理队列中当前层级的所有节点。    """    # 记录当前层级队列的末尾节点,用于判断何时结束当前层级的处理    # 注意:如果queue为空,此操作会报错。在solution函数中已确保queue非空。    tail = queue[-1]     level_dict = {} # 存储当前层级的节点及其邻居    while True:        node = queue.popleft() # 取出当前节点        # 确保当前节点在图中存在        if node not in graph:            # 如果节点不存在,但它在当前层级被处理,我们仍然需要记录它为空            # 或者选择跳过,取决于具体需求。这里选择跳过。            if node == tail: # 如果是当前层级的最后一个节点,需要跳出循环                return level_dict            continue # 跳过不存在的节点        neighbors = graph[node] # 获取邻居        level_dict[node] = neighbors.copy() # 添加到当前层级结果        for neighbor in neighbors:            # 如果邻居已访问或为目标节点,则不入队            if neighbor in seen or neighbor in target_set:                continue            seen.add(neighbor) # 标记为已访问            queue.append(neighbor) # 加入队列等待下一层级处理        # 如果当前节点是本层级的最后一个节点,则完成本层级处理        if node == tail:            return level_dict# 示例数据 (与之前相同)source_list = ['a', 'b']target_list = ['x', 'y', 'z']my_dict = {    'a': ['e'],    'b': ['f', 'd'],    'e': ['g'],    'f': ['t', 'h'],    'd': ['x'],    'g': ['x'],    't': ['y'],    'h': ['z']}# 运行优化版函数output_optimized = solution(source_list, target_list, my_dict)print(output_optimized)

输出:

{0: {'a': ['e'], 'b': ['f', 'd']}, 1: {'e': ['g'], 'f': ['t', 'h'], 'd': ['x']}, 2: {'g': ['x'], 't': ['y'], 'h': ['z']}}

5. 注意事项与总结

seen 集合的重要性:seen集合用于跟踪所有已访问过的节点。它有两个主要作用:防止无限循环:如果图中存在环(循环),没有seen集合会导致BFS无限遍历。避免重复处理:确保每个节点只被处理一次,提高效率。在我们的问题中,source列表中的节点在开始时就被添加到seen中。target_set 的作用:将target_list转换为target_set是为了在检查邻居时实现O(1)的平均时间复杂度查找,而不是O(N)的列表查找,这在目标列表较大时能显著提升性能。停止条件:当一个节点的邻居是target_set中的元素时,该邻居不会被添加到队列中。这意味着我们只收集到target节点“前”一层的结构,target节点本身不会作为新的起始节点被进一步探索。这符合问题中“直到我达到目标列表中的值”的要求。图的表示:my_dict作为邻接列表表示有向图。如果图中存在键但没有值(例如’k’: []),或者键不存在(例如尝试访问graph[‘non_existent_node’]),需要进行适当的错误处理或检查(例如使用graph.get(node, [])或if node in graph:)。上述代码中已添加了if node not in graph: continue的检查。deque 的使用:collections.deque(双端队列)比标准Python列表在两端添加和删除元素时效率更高,因此是实现队列的理想选择。优化方案的适用性:第二种优化方案通过在内部循环中一次性处理一个层级的所有节点,可能在某些性能测试中略快,因为它减少了外部循环的迭代次数。然而,两种方案在功能和渐近时间复杂度上是等效的。

通过以上两种广度优先搜索的实现,我们可以高效地从复杂的字典结构中,按照指定的层级和停止条件提取所需的数据,这在图遍历、网络分析等领域具有广泛的应用价值。

以上就是使用广度优先搜索(BFS)按层级提取Python字典数据的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1376124.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 15:37:58
下一篇 2025年12月14日 15:38:10

相关推荐

  • 解决 dput 上传 Debian 包时遇到的 SSL 证书验证失败问题

    本文旨在解决使用 dput 工具上传 Debian 包到 GitLab 仓库时遇到的 SSL 证书验证失败问题,特别是当使用自签名证书时。文章将介绍一个有效的临时解决方案,通过修改 dput 的 Python 脚本来绕过 SSL 证书验证,确保包上传过程顺利进行。 问题描述 当开发者尝试使用 dpu…

    2025年12月14日
    000
  • python thread模块创建线程

    创建线程常用threading.Thread类,通过target参数传入函数或继承并重写run方法;需调用start()启动线程,join()等待结束,适合I/O密集型任务。 在 Python 中,创建线程通常使用 threading 模块,而不是旧的 thread 模块(在 Python 3 中已…

    2025年12月14日
    000
  • python函数中使用for循环

    在Python函数中使用for循环可实现对可迭代对象的重复操作,提升代码复用性。例如定义print_items(lst)函数遍历打印列表元素;square_evens(numbers)函数筛选偶数并计算平方返回新列表;还可结合range()按索引遍历,如greet_students(names)输出…

    2025年12月14日
    000
  • 解决Turtle转换为GIF后无法交互的问题

    本文旨在解决在使用Python Turtle模块时,将Turtle对象转换为GIF图像后,无法通过点击事件触发相应函数的问题。我们将分析问题的根源,并提供有效的解决方案,确保GIF图像的Turtle对象也能响应点击事件。通过修改事件绑定方式,实现GIF图像的交互功能。 在使用Python的Turtl…

    2025年12月14日
    000
  • Pandas时间序列:按日分组重置expanding()操作

    本教程将详细介绍如何在Pandas时间序列数据中,实现expanding()函数按日重置计算。通过将时间序列索引转换为日期列,并结合groupby()方法,我们可以有效地为每个新的一天独立地重新开始扩展窗口计算,从而满足特定时间周期内的累积统计需求。 引言 在处理时间序列数据时,pandas的exp…

    2025年12月14日
    000
  • python for循环如何使用_python for循环语法与应用详解

    for循环用于遍历可迭代对象,自动处理元素直至耗尽,适合已知集合或固定次数操作;while循环基于条件判断,需手动管理终止条件,适用于不确定循环次数或动态控制场景。 for循环在Python中主要用于遍历可迭代对象(如列表、元组、字符串、字典、集合或range()生成的序列)中的每一个元素,并对这些…

    2025年12月14日
    000
  • python Pytest有什么特点

    Pytest 优势在于简洁语法、强大断言、丰富插件、灵活 fixture、自动发现测试、参数化支持、筛选运行及调试能力,提升测试效率。 Pytest 是 Python 中广泛使用的测试框架,相比其他测试工具(如 unittest),它在简洁性、灵活性和功能丰富性方面有明显优势。以下是 Pytest …

    2025年12月14日
    000
  • 掌握PySide6与DBus信号的连接:深度教程

    本文详细阐述了在PySide6中正确连接DBus信号的方法,重点解决常见的两个问题:缺乏DBus对象注册和不正确的槽函数签名语法。通过对比PyQt6的简化方式,教程提供了完整的PySide6示例代码,指导开发者如何利用QDBusConnection.registerObject()和QtCore.S…

    2025年12月14日
    000
  • PyTorch高效矩阵操作:利用广播机制优化循环求和

    本文深入探讨了如何在PyTorch中将低效的Python循环矩阵操作转化为高性能的向量化实现。通过利用PyTorch的广播(broadcasting)机制和张量维度操作(如unsqueeze),我们展示了如何将逐元素计算和求和过程高效地并行化,显著提升计算速度,同时讨论了向量化操作可能带来的数值精度…

    2025年12月14日
    000
  • Stripe Payment Links:实现固定金额资金转移与分配的实践指南

    本文深入探讨了Stripe Payment Links在资金转移和分配方面的功能,重点介绍了transfer_data参数如何实现向关联账户的固定金额转移,以及application_fee_amount参数用于平台保留固定费用。同时,文章明确指出,对于一次性支付的自定义定价产品,Stripe Pa…

    2025年12月14日
    000
  • SQLAlchemy异步会话与PostgreSQL连接管理深度解析

    本文深入探讨了在使用SQLAlchemy与PostgreSQL进行异步操作时,如何理解和管理数据库连接。文章阐明了SQLAlchemy连接池的工作机制,解释了为何连接会保持开放,并强调了使用上下文管理器进行正确会话关闭的重要性,避免了不必要的session.close()调用,同时介绍了pool_s…

    2025年12月14日
    000
  • PyTorch二分类模型精度计算陷阱解析与跨框架对比实践

    本文深入探讨了PyTorch二分类模型在精度计算时可能遇到的常见陷阱,特别是当与TensorFlow的评估结果进行对比时出现的显著差异。通过分析一个具体的案例,文章揭示了PyTorch中一个易被忽视的精度计算错误,并提供了正确的实现方式,旨在帮助开发者避免此类问题,确保模型评估的准确性和一致性。 1…

    2025年12月14日
    000
  • 使用 NumPy 计算 3D 数组列均值并填充 NaN 值

    本教程旨在指导读者如何使用 NumPy 库计算 3D 数组中每一列的均值,并在计算过程中忽略 NaN 值。同时,我们将演示如何使用计算得到的均值来填充数组中的 NaN 值,从而得到一个完整且无缺失值的数组。本方法利用 NumPy 的 nanmean 函数和广播机制,高效地解决了在多维数组中处理缺失值…

    2025年12月14日
    000
  • 解决 QLoRA 训练中大批量尺寸导致训练时间过长的问题

    在使用 QLoRA (Quantization-aware Low-Rank Adaptation) 技术微调大型语言模型时,可能会遇到一些意想不到的问题。其中一个常见问题是,当增加 per_device_train_batch_size 时,训练时间会不成比例地增加,即使 GPU 内存可以容纳更大…

    2025年12月14日
    000
  • 深入理解Python字典视图对象与动态更新机制

    Python字典的keys()、values()和items()方法返回的是动态的视图对象,而非静态列表。这意味着这些视图会实时反映原字典的任何更改。这种行为源于Python对复杂对象采用的“传引用”机制,即变量指向内存中的同一对象。因此,当原字典更新时,所有指向其视图的变量也会自动同步更新。 什么…

    2025年12月14日
    000
  • Python字典视图对象:深入理解keys()和values()的动态行为

    本文深入探讨Python字典的keys()、values()和items()方法返回的视图对象特性。我们将解释为何这些视图对象会随着原字典的修改而自动更新,这主要归因于它们是动态引用原字典内存的视图,而非静态副本。文章通过示例代码和引用传递的概念,帮助读者理解Python中复杂数据结构的这种动态行为…

    2025年12月14日
    000
  • 教程:Python Turtle 边界检测中的逻辑错误与修正

    本文将通过一个具体的例子,分析在使用 Python Turtle 模块进行图形绘制时,由于逻辑运算符使用不当导致的边界检测失效问题。我们将深入探讨 or 运算符在条件判断中的作用,并提供正确的解决方案,确保 Turtle 对象在超出预设边界时能够正确地改变方向,避免程序运行出现异常。 在使用 Pyt…

    2025年12月14日
    000
  • 优化Tkinter主题性能:解决UI卡顿与响应缓慢问题

    本文探讨了Tkinter应用中因主题选择不当导致的性能问题,尤其是在Windows和macOS平台上使用包含大量图片资源的自定义主题时。针对此问题,文章提供了两种主要解决方案:一是推荐使用性能更优的Tkinter主题,如sv-ttk,并提供其安装与应用示例;二是建议对于更高性能或更现代UI需求,考虑…

    2025年12月14日
    000
  • JAX分片数组上的离散差分计算:性能考量与实践

    JAX分片(Sharding)旨在通过将数组分割并分布到多个设备来加速计算。本文探讨了在JAX分片数组上执行离散差分操作的性能。实验结果表明,沿差分轴进行分片可能导致显著的性能下降,而垂直于差分轴的分片对性能提升不明显。这强调了在应用分片时,理解操作的数据依赖性以及潜在的跨设备通信开销的重要性。 J…

    2025年12月14日
    000
  • cppyy中处理C++引用指针参数MYMODEL*&的临时解决方案

    本文探讨了在使用c++ppyy调用C++库时,处理C++函数签名中MYMODEL*&(引用指针类型)参数时遇到的TypeError问题。针对这一特定场景,文章提供了一个有效的临时解决方案:通过定义一个虚拟C++结构体并结合cppyy.bind_object方法,成功地将Python对象转换为…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信