Python中高效查找指定子文件夹的策略

python中高效查找指定子文件夹的策略

本文探讨在Python中高效查找特定子文件夹的策略。针对传统os.listdir在大规模目录下性能低下的问题,引入并详细介绍了os.scandir。通过对比分析,阐明os.scandir如何利用系统级优化减少I/O操作,提供更快的目录遍历能力,并给出优化后的代码示例,帮助开发者构建高性能的文件系统操作。

性能瓶颈:传统方法的挑战

在Python中,我们经常需要遍历文件系统来查找符合特定条件的子文件夹。一个常见的做法是结合使用os.listdir和os.path.isdir,并通过正则表达式筛选目标文件夹。然而,对于包含大量(例如数十万)子文件夹的目录,这种方法会遇到显著的性能问题。

考虑以下传统实现方式:

import osimport redef find_subfolders_of_interest_traditional(dir_of_interest, starting_string_of_interest):    # 1. 获取目录下所有文件和文件夹的名称    all_items = os.listdir(dir_of_interest)    # 2. 筛选出所有子文件夹    all_subfolders = [item for item in all_items if os.path.isdir(os.path.join(dir_of_interest, item))]    # 3. 使用正则表达式匹配感兴趣的子文件夹    startWithPattern = starting_string_of_interest    regexp_pattern = re.compile(startsWithPattern)    all_subfolders_of_interest = list(filter(regexp_pattern.match, all_subfolders))    return all_subfolders_of_interest# 示例调用# subfolders = find_subfolders_of_interest_traditional('path/to/your/large/directory', 'prefix_')

这种方法的性能瓶颈主要在于以下两点:

多次系统调用: os.listdir首先执行一次系统调用获取所有条目名称。然后,对于列表中的每个条目,os.path.isdir都会执行另一次系统调用来检查它是否是一个目录。在大型目录中,这意味着成千上万甚至数十万次的独立系统调用,导致I/O开销巨大。内存占用 os.listdir会一次性将目录下的所有条目名称加载到内存中,对于包含大量条目的目录,这可能导致较高的内存消耗。

os.scandir:高效目录遍历的利器

为了解决上述性能问题,Python 3.5 引入了 os.scandir 函数。os.scandir返回一个迭代器,该迭代器生成 DirEntry 对象,而不是简单的字符串名称。每个 DirEntry 对象都包含了文件系统条目的名称以及预先缓存的属性(如是否为目录、是否为文件等),从而避免了对每个条目进行额外的系统调用。

立即学习“Python免费学习笔记(深入)”;

使用 os.scandir 的主要优势包括:

减少系统调用: DirEntry 对象在创建时就缓存了文件系统信息,如 is_dir() 和 is_file(),因此无需为每个条目单独进行 os.path.isdir 或 os.path.isfile 调用。惰性加载: os.scandir 返回的是一个迭代器,它按需生成 DirEntry 对象,而不是一次性加载所有条目到内存中,这对于处理超大型目录尤其有利。

以下是 os.scandir 的一个基本用法示例,用于列出指定路径下的所有子目录:

import osdef subdirs_basic(path):    """生成给定路径下不以'.'开头的目录名称。"""    for entry in os.scandir(path):        if not entry.name.startswith('.') and entry.is_dir():            yield entry.name# 示例调用# for subdir in subdirs_basic('/path/to/directory'):#     print(subdir)

使用 os.scandir 查找目标子文件夹

结合 os.scandir 的优势,我们可以重构之前的函数,以更高效地查找以特定字符串开头的子文件夹。

import osdef find_subfolders_of_interest_optimized(dir_of_interest, starting_string_of_interest):    """    高效查找指定目录下以特定字符串开头的子文件夹。    Args:        dir_of_interest (str): 要扫描的目录路径。        starting_string_of_interest (str): 子文件夹名称的起始字符串。    Returns:        list: 符合条件的子文件夹名称列表。    """    all_subfolders_of_interest = []    # 遍历目录中的每个条目    for entry in os.scandir(dir_of_interest):        # 检查条目是否为目录且名称以指定字符串开头        # entry.is_dir() 利用了DirEntry对象缓存的信息,避免了额外的系统调用        if entry.is_dir() and entry.name.startswith(starting_string_of_interest):            all_subfolders_of_interest.append(entry.name)    return all_subfolders_of_interest# 示例调用if __name__ == '__main__':    # 创建一个测试目录结构    test_dir = 'test_folder_scandir'    os.makedirs(test_dir, exist_ok=True)    os.makedirs(os.path.join(test_dir, 'string_of_interest_01'), exist_ok=True)    os.makedirs(os.path.join(test_dir, 'string_of_interest_02'), exist_ok=True)    os.makedirs(os.path.join(test_dir, 'other_folder'), exist_ok=True)    with open(os.path.join(test_dir, 'some_file.txt'), 'w') as f:        f.write('hello')    print(f"在 '{test_dir}' 中查找以 'string_of_interest' 开头的子文件夹:")    found_subfolders = find_subfolders_of_interest_optimized(test_dir, 'string_of_interest')    print(found_subfolders) # 预期输出: ['string_of_interest_01', 'string_of_interest_02']    # 清理测试目录    import shutil    shutil.rmtree(test_dir)

性能优势分析

find_subfolders_of_interest_optimized 函数通过以下方式实现了显著的性能提升:

单次系统调用获取信息: 当 os.scandir 迭代时,它会从操作系统获取目录条目及其基本属性(如类型),并将这些信息缓存到 DirEntry 对象中。这意味着 entry.is_dir() 方法可以直接访问这些缓存信息,而无需进行额外的系统调用。按需迭代: os.scandir 返回一个迭代器,它只在需要时才从文件系统读取数据。这与 os.listdir 一次性读取所有条目不同,尤其在处理包含大量条目的目录时,可以显著降低内存使用并提高响应速度。内建字符串方法: 使用 entry.name.startswith() 进行前缀匹配通常比编译和执行正则表达式更快,特别是当模式相对简单时。

在面对数十万个文件和文件夹的场景中,这种优化能够将处理时间从数分钟缩短到数秒,极大地提升了文件系统操作的效率。

总结与最佳实践

当需要在Python中进行目录遍历并筛选文件或文件夹时,尤其是在性能敏感或处理大型目录的场景下,强烈建议使用 os.scandir 而非传统的 os.listdir 结合 os.path.isdir。

关键点回顾:

os.scandir 返回 DirEntry 对象的迭代器。DirEntry 对象缓存了文件系统信息,如 is_dir() 和 is_file(),避免了重复的系统调用。os.scandir 采用惰性加载,减少内存占用。对于简单匹配,直接使用 entry.name.startswith() 或 entry.name.endswith() 通常比正则表达式更高效。

通过采纳 os.scandir,开发者可以编写出更健壮、更高效的文件系统操作代码,以应对各种复杂的目录遍历需求。

以上就是Python中高效查找指定子文件夹的策略的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1376921.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 16:19:58
下一篇 2025年12月14日 16:20:09

相关推荐

  • PyMilvus连接Milvus Cloud数据库故障排除与最佳实践

    本文旨在指导用户解决在使用PyMilvus连接Milvus Cloud数据库时遇到的MilvusException: Fail connecting to server错误。我们将详细介绍从基础连接配置、网络连通性验证到PyMilvus版本管理和官方示例利用的全面故障排除步骤,确保用户能够顺利建立与…

    好文分享 2025年12月14日
    000
  • PyCharm文件移动重构中未使用的导入自动移除问题及局部解决方案

    PyCharm在执行文件移动重构时,会自动移除文件中未使用的导入语句,这对于部分开发者而言是困扰。本文将探讨此行为的现状,指出其为已知问题,并提供一种局部解决方案,以防止特定导入被意外删除。 问题描述与现状 PyCharm作为一款功能强大的Python集成开发环境,其提供的重构功能,特别是文件移动(…

    2025年12月14日
    000
  • 从 Azure ItemPaged 迭代器中提取数据到字典或列表

    本文旨在帮助初学者理解如何从 Azure SDK 返回的 ItemPaged 迭代器中提取数据,并将其转换为更易于使用的数据结构,如字典或列表。我们将重点介绍如何访问迭代器中对象的属性,以及如何将这些属性提取到自定义的数据结构中。通过本文,你将能够有效地处理 Azure API 返回的数据,并将其用…

    2025年12月14日
    000
  • 将Google API响应转换为Pandas DataFrame:实战指南

    本教程详细介绍了如何将Google Analytics Admin API返回的ListCustomDimensionsPager类对象转换为Pandas DataFrame。由于API响应的特殊对象类型不直接支持JSON序列化或Pandas的json_normalize方法,文章提供了一种通过迭代…

    2025年12月14日
    000
  • 从API正确解析Apache Parquet数据的实践指南

    本文旨在解决从API获取Parquet格式数据时常见的解码问题。核心在于避免将二进制数据误处理为文本,而是通过requests.Response.content直接获取原始字节流,并结合io.BytesIO与pandas.read_parquet或pyarrow.parquet.read_table…

    2025年12月14日
    000
  • python运算符的优先级规则

    Python运算符优先级从高到低为:*(幂运算,右结合)、~, +, -(按位取反、正负号)、, /, //, %、+, -、、&、^、|、比较运算符(in, not in, is, is not, =, !=, ==)、not、and、or。例如3 + 4 2 > 5 and Tru…

    2025年12月14日
    000
  • 在Pandas DataFrame中高效比较列与列表元素

    本教程旨在解决Pandas DataFrame中复杂条件判断问题,即如何高效地比较一个列的值与另一列的值,或判断其是否存在于一个可能包含列表的列中。我们将探讨使用df.apply时可能遇到的ValueError,并提供两种更高效、更符合Pandas惯用法的解决方案:列表推导式和优化的df.apply…

    2025年12月14日
    000
  • Python游戏开发:动态调整下落精灵速度的教程

    本教程将指导您如何在Python游戏中使用livewires库,根据玩家得分动态调整下落精灵(如雪球)的速度。通过修改精灵的类变量并引入一个分数阈值检查机制,您可以实现在游戏进程中逐步提升难度,增强游戏的可玩性。教程将涵盖代码实现细节,并提供优化建议以确保速度调整的准确性和鲁棒性。 1. 游戏场景与…

    2025年12月14日
    000
  • Flask应用启动后保持后台数据库更新

    本文介绍了如何在Flask应用启动后,利用后台任务持续更新数据库。通过使用APScheduler库,我们可以创建一个后台调度器,定时执行数据库更新函数。文章详细讲解了如何配置和启动调度器,并提供了代码示例,帮助开发者解决Flask应用在启动后无法持续运行后台任务的问题,确保数据库始终保持最新状态。 …

    2025年12月14日
    000
  • 解决WSL2中NumPy导入错误:libgcc_s.so.1缺失的实战教程

    本文旨在解决在WSL2环境中导入NumPy时遇到的libgcc_s.so.1: cannot open shared object file: No such file or directory错误。此问题通常源于动态链接器无法找到NumPy C扩展所需的GCC运行时库。通过精确设置LD_LIBRA…

    2025年12月14日
    000
  • Selenium自动化:利用显式等待解决动态按钮点击难题

    在使用Selenium进行网页自动化时,有时会遇到元素已被找到但无法点击的问题,尤其对于动态加载的按钮如“Load More”。本文将深入探讨这一常见挑战,并提供一种可靠的解决方案:利用Selenium的显式等待(Explicit Waits)机制,确保元素在可交互状态时才执行点击操作,从而有效提升…

    2025年12月14日
    000
  • Pandas DataFrame高效数据对比与差异定位教程

    本教程详细介绍了如何高效比较两个Pandas DataFrame,以识别并定位其中的数据差异。文章通过直接的布尔比较、自定义函数以及apply方法,展示了如何准确找出发生数据不匹配的行和列,并以清晰的格式输出差异报告,适用于数据验证和质量控制场景。 1. 引言 在数据分析和处理过程中,经常需要对比两…

    2025年12月14日
    000
  • 如何计算独立事件聚合结果的概率分布

    本文旨在解决如何从一组独立的商业项目中,每个项目具有不同的成功概率和潜在工时,推导出获得特定总工时的概率分布。通过详细阐述场景枚举方法,并提供Python代码示例,展示如何计算所有可能结果的概率和对应工时,进而构建出总工时与概率之间的关系曲线,为商业预测提供数据支持。 在商业预测中,我们经常面临这样…

    2025年12月14日
    000
  • PyTorch DataLoader 目标张量批处理行为详解与修正

    在使用 PyTorch DataLoader 进行模型训练时,如果 Dataset 的 __getitem__ 方法返回的标签(target)是一个 Python 列表而非 torch.Tensor,DataLoader 默认的批处理机制可能导致标签张量形状异常,表现为维度被转置。本文将深入解析这一…

    2025年12月14日
    000
  • Pandas DataFrame中列与列表元素的高效比较:避免常见陷阱

    本文探讨了在Pandas DataFrame中,如何高效地对列进行条件比较,包括值相等性检查和列表成员资格判断。针对常见的apply方法可能导致的ValueError,文章提供了两种解决方案:一种是推荐使用更高效的列表推导式,另一种是演示如何正确地在apply函数内部处理行数据以避免错误,确保逻辑清…

    2025年12月14日
    000
  • Pydantic进阶:优雅处理现有键的字段别名与嵌套数据

    本教程深入探讨Pydantic在处理复杂API响应时的字段别名和数据转换技巧。我们将学习如何优雅地将遗留API中嵌套或冲突的字段映射到Pydantic模型中,避免手动数据清理。通过computed_field实现数据结构转换,以及利用Pydantic v2的validation_alias、seri…

    2025年12月14日
    000
  • Python mysqlclient安装疑难解答:解决mysql.h缺失错误

    本文旨在解决Python mysqlclient库在安装时常见的mysql.h文件缺失错误。我们将深入探讨此问题的原因,并提供针对Windows、Linux (Ubuntu/Debian) 和 CentOS/RHEL 等不同操作系统的详细解决方案,包括安装必要的开发库和配置环境,确保mysqlcli…

    2025年12月14日
    000
  • 解决Python高版本中pickle5安装失败的问题及正确使用pickle模块

    在Python 3.8及更高版本中尝试安装pickle5库通常会导致编译错误,因为pickle5是一个为Python 3.5-3.7提供pickle模块新特性的向后移植库。对于现代Python环境,应直接使用内置的pickle模块,它已包含pickle5所提供的所有功能,无需额外安装。 pickle…

    2025年12月14日
    000
  • 使用 pytest 和 monkeypatch 模拟可调用类并复用返回值

    本文介绍了如何使用 pytest 和 monkeypatch 来模拟一个可调用类,并能够在多个测试中复用和自定义其返回值。通过使用类工厂函数,可以动态创建具有不同返回值的模拟类,从而避免在每个测试中重复定义模拟类,提高测试代码的可维护性和可读性。 模拟可调用类 在编写单元测试时,经常需要模拟外部依赖…

    2025年12月14日
    000
  • 使用Selenium处理动态网页元素:策略与实践

    本文旨在提供一套使用Python Selenium处理动态网页元素的策略与实践指南。面对类名或ID在运行时及页面刷新时不断变化的挑战,我们将探讨如何利用基于文本的定位器、健壮的CSS选择器和灵活的XPath表达式,有效且稳定地与这些动态元素进行交互,确保自动化脚本的可靠性。 在现代web应用中,为了…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信