Python fileinput模块：高效处理大文件行删除的教程

程序猿 • 2025年12月14日 14:41:18 • 用户投稿 • 阅读 0

本教程旨在解决Python中处理超大文件时，高效删除特定行的挑战。针对内存或硬盘资源受限的环境，传统方法可能效率低下甚至不可行。我们将详细介绍如何利用Python内置的fileinput模块，通过其原地修改（inplace=True）功能，以流式处理方式实现特定行的删除，从而显著减少内存占用并优化I/O操作，确保在不加载整个文件到内存的情况下完成文件内容的修改。

一、大文件处理的挑战与传统方法的局限性

在处理gb级别甚至更大的文本文件时，常见的操作是读取文件内容，进行处理，然后将修改后的内容写入新文件或覆盖原文件。例如，以下代码片段展示了一种常见的删除特定行的方法：

input_file = "badfile.txt"with open(input_file, "r") as file:    lines = file.readlines() # 将整个文件内容加载到内存中# 过滤掉包含特定字符串的行lines = [line for line in lines if "[Invalid]" not in line]output_file = "badfile.txt" # 覆盖原文件with open(output_file, "w") as file:    file.writelines(lines)

这种方法对于小文件来说是可行的，但当文件大小达到数GB时，file.readlines()会将整个文件内容一次性加载到内存中。如果文件过大，这会导致严重的内存溢出（Out Of Memory）错误，尤其是在内存受限的机器上。即使内存足够，将所有内容加载到内存再全部写回磁盘，也会产生大量的I/O操作，对于慢速硬盘（如老旧的HDD）而言，这会是一个非常耗时且低效的过程。

因此，我们需要一种更高效、更节省资源的方法来处理这类问题。

二、 fileinput模块：原地修改大文件的利器

Python标准库中的fileinput模块提供了一种优雅且高效的方式来处理文件内容，尤其适用于需要“原地”修改文件（即在原文件上进行修改，而不是创建新文件）的场景。它的核心优势在于能够以流式方式逐行读取文件，并配合inplace=True参数将print()函数的输出重定向到原文件，从而避免将整个文件加载到内存。

2.1 fileinput模块的基本用法

fileinput.input()函数可以接受一个文件路径列表，并返回一个迭代器，允许我们逐行遍历这些文件。当与inplace=True结合使用时，它的行为变得非常特殊：

立即学习“Python免费学习笔记（深入）”；

它会在后台创建一个临时文件。读取原始文件中的每一行。任何通过print()函数输出的内容都会被写入到这个临时文件中。当所有行处理完毕后，原始文件会被删除，临时文件会被重命名为原始文件名，从而实现“原地修改”的效果。

2.2 使用fileinput删除特定行

下面是使用fileinput模块高效删除大文件中包含特定字符串的行的示例代码：

import fileinputimport os # 导入os模块，用于文件路径操作，虽然本例中不直接使用，但在实际项目中可能有用def remove_lines_from_large_file(filepath, keyword_to_remove):    """    从指定的大文件中删除包含特定关键字的行。    此操作是原地进行的，会直接修改原文件。    Args:        filepath (str): 待处理文件的路径。        keyword_to_remove (str): 需要删除的行中包含的关键字。    """    print(f"正在处理文件: {filepath}")    print(f"将删除包含关键字 '{keyword_to_remove}' 的行...")    try:        # 使用fileinput进行原地修改        # files: 指定要处理的文件        # encoding: 指定文件编码，确保正确读取和写入中文等字符        # inplace=True: 启用原地修改模式        with fileinput.input(files=(filepath,), encoding="utf-8", inplace=True) as f:            for line in f:                # 如果当前行不包含要删除的关键字，则打印该行                # print()函数在inplace模式下会将输出重定向到临时文件                # end='' 是关键，因为line本身已经包含换行符，                # 避免print()再添加一个额外的换行符                if keyword_to_remove not in line:                    print(line, end='')        print(f"文件 '{filepath}' 处理完成。")    except Exception as e:        print(f"处理文件 '{filepath}' 时发生错误: {e}")# 示例用法file_to_process = "badfile.txt" # 替换为你的大文件路径invalid_word = "[Invalid]"# 创建一个模拟的大文件用于测试 (可选)# with open(file_to_process, "w", encoding="utf-8") as f:#     f.write("Vf1Ga0Qie6cxuc8o4cZKn")#     f.write("XmQ71QRzm42Bju5DEGVnn")#     f.write("[Invalid] diBWMYL67YfvawddJF3kn")#     f.write("rjfUecVHkym7N0d5rJ4vn")#     f.write("Another valid linen")#     f.write("[Invalid] yet another invalid linen")#     f.write("Final valid linen")remove_lines_from_large_file(file_to_process, invalid_word)# 验证文件内容（可选）# with open(file_to_process, "r", encoding="utf-8") as f:#     print("n--- 处理后的文件内容 ---")#     print(f.read())

2.3 代码解析与资源效率

import fileinput: 导入所需的模块。with fileinput.input(files=(filepath,), encoding=”utf-8″, inplace=True) as f::files=(filepath,): 指定要处理的文件。注意这里是一个元组，即使只有一个文件也需要以元组形式传递。encoding=”utf-8″: 明确指定文件编码，这对于处理包含非ASCII字符的文件至关重要，可以避免乱码问题。inplace=True: 这是实现原地修改的关键参数。它指示fileinput模块在后台创建一个临时文件，并将print()的输出重定向到该临时文件。for line in f:: 逐行迭代文件。fileinput模块会智能地从原始文件中读取一行，而不会一次性加载整个文件。if keyword_to_remove not in line:: 这是过滤逻辑。如果当前行不包含我们想要删除的关键字，则执行下一步。print(line, end=”): 这是最关键的一步。在inplace=True模式下，print()函数不再输出到标准输出，而是将内容写入到fileinput在后台管理的临时文件中。end=”参数非常重要，因为line变量本身已经包含了行尾的换行符（n），如果不加end=”，print()函数会默认再添加一个换行符，导致文件中出现多余的空行。

资源效率分析：

内存使用： fileinput逐行处理文件，因此在任何给定时间，内存中只保留当前处理的行（以及一些内部缓冲区），而不是整个文件。这使得它非常适合处理超大文件，即使是在内存非常有限的机器上。磁盘I/O： 虽然fileinput仍然涉及到磁盘读写（从原文件读取，写入临时文件，然后重命名），但它将这些操作封装起来，通常比手动实现“读取所有、过滤、写入新文件、删除旧文件、重命名新文件”的流程更为优化和健壮。对于慢速HDD，虽然I/O操作本身仍然需要时间，但这种方法避免了内存瓶颈，并优化了文件操作的原子性。

三、注意事项与最佳实践

备份文件： inplace=True会直接修改原始文件。在执行此类操作之前，务必创建文件的备份，以防意外情况发生（例如，代码逻辑错误导致误删或文件损坏）。错误处理： 在生产环境中，应加入更完善的错误处理机制，例如捕获文件不存在、权限不足等异常。文件编码： 始终明确指定文件的编码（如encoding=”utf-8″），以避免在处理包含非ASCII字符（如中文、特殊符号）的文件时出现编码错误。性能考量： 尽管fileinput大大减少了内存使用，但对于极大的文件，磁盘I/O仍然是主要瓶颈。如果文件位于慢速存储介质上，整个过程仍可能耗时较长。不适用于并发写入： fileinput设计用于单进程对单个文件的修改。在多进程或多线程环境下，对同一文件进行inplace=True操作可能会导致竞争条件和数据损坏。

四、总结

fileinput模块提供了一种强大而高效的方式来处理Python中的大文件修改任务，特别是当需要进行原地修改并避免将整个文件加载到内存时。通过巧妙地利用其inplace=True参数和print()函数重定向机制，开发者可以编写出既节省资源又高效的文件处理脚本。然而，务必牢记其原地修改的特性，并始终在操作前做好文件备份，以确保数据的安全性。

以上就是Python fileinput模块：高效处理大文件行删除的教程的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1375063.html

python word 内存占用文件备份标准库硬盘编码

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

解决 Pyheif 安装失败：理解并安装 libheif 核心依赖

上一篇 2025年12月14日 14:41:16

使用 Git 在多台电脑上协同开发

下一篇 2025年12月14日 14:41:26

好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
4000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
3000
好文分享

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
3000
好文分享

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
3000
好文分享

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
1000
好文分享

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
好文分享

css怎么设置文件编码

在css中，可以使用“@charset”规则来设置编码，语法格式“@charset “字符编码类型”;”。“@charset”规则可以指定样式表中使用的字符编码，它必须是样式表中的第一个元素，并且不能以任何字符开头。本教程操作环境：windows7系统、CSS3&&…

程序猿
2025年12月24日
0000
好文分享

CSS的Word中的列表详解

在word中，列表也是使用频率非常高的元素。在css中，列表和列表项都是块级元素。也就是说，一个列表会形成一个块框，其中的每个列表项也会形成一个独立的块框。所以，盒模型中块框的所有属性，都适用于列表和列表项。除此之外，列表还有 3 个特有的属性 list-style-type、list-style…

程序猿
2025年12月24日
0000
好文分享

响应式HTML5按钮适配不同屏幕方法【方法】

实现响应式HTML5按钮需五种方法：一、CSS媒体查询按max-width断点调整样式；二、用rem/vw等相对单位替代px；三、Flexbox控制容器与按钮伸缩；四、CSS变量配合requestAnimationFrame优化的JS动态适配；五、Tailwind等框架的响应式工具类。如果您希望H…

程序猿
2025年12月23日
1000
好文分享

html5能否禁用搜索框自动填充_html5autocomplete关闭方法【教程】

禁用HTML5搜索框自动填充有五种方法：一、设autocomplete=”off”；二、随机化name/id值；三、用无效autocomplete值如”nope”；四、JS动态设置autocomplete；五、设autocomplete=”…

程序猿
2025年12月23日
1000
好文分享

html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

HTML5无法直接导出video标签内容，需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制；FFmpeg.wasm支持MP4等格式及精细编码控制；服务端方案适合高负载场景。如果您希望在网页…

程序猿
2025年12月23日
4000
好文分享

如何查看编写的html_查看自己编写的HTML文件效果【效果】

要查看HTML文件的浏览器渲染效果，需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。如果您编写了HTML代码，但无法直观看到其在浏览器中的实际渲染效果，则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

程序猿
2025年12月23日
4000
好文分享

html5怎么加php_html5用Ajax与PHP后端交互实现数据传递【交互】

HTML5不能直接运行PHP，需通过Ajax与PHP通信：前端用fetch发送请求，PHP接收处理并返回JSON，前端解析响应更新DOM；注意跨域、编码、CSRF防护和输入过滤。 HTML5 本身是前端标记语言，不能直接运行 PHP 代码，但可以通过 Ajax（异步 JavaScript）与 PHP…

程序猿
2025年12月23日
3000
html5怎么引用js_HTML5用外链或内嵌JS代码引用脚本【引用】

HTML5中执行JavaScript需通过外链或内嵌方式引入：一、外链用，支持defer/async；二、内嵌将代码写入间，推荐置于body底部；三、type属性默认可省略；四、模块化使用type=”module”支持ES6 import/export。 <img sr…

程序猿
好文分享 2025年12月23日
1000
好文分享

html5怎么打包运行_HT5用Webpack或Gulp打包后浏览器打开运行【打包】

应通过 HTTP 服务运行打包后的 HTML5 页面，而非双击打开：一、Webpack 配 webpack-dev-server 启动本地服务；二、Gulp 配 BrowserSync 提供实时重载；三、用 Python/Node.js 轻量 HTTP 工具托管 dist 目录；四、仅当必须双击运行…

程序猿
2025年12月23日
1000
好文分享

html5文件运行不出来怎么回事_析html5文件运行失败原因【解析】

首先检查文件扩展名和编码格式，确保为.html且使用UTF-8编码；接着验证HTML5结构完整性，包含及正确闭合的标签；然后排查外部资源路径是否正确，利用开发者工具查看404错误；排除浏览器兼容性问题，优先在现代浏览器中测试并避免未广泛支持的API；检查JavaScript语法错误与执行顺序，确保脚…

程序猿
2025年12月23日
1000
好文分享

html5怎么读取文件_html5用FileReader API读取本地文件内容或属性【读取】

HTML5的FileReader API支持读取本地文件内容及获取基本信息：一、通过input type=”file”获取File对象；二、用readAsText读取文本；三、用readAsDataURL生成Data URL预览资源；四、用readAsArrayBuffer读…

程序猿
2025年12月23日
1000
好文分享

html5怎么插入文档_HT5用object或iframe嵌入PDF/Word文档显示【插入】

可在HTML5中用iframe或object标签嵌入PDF，需设宽高及可访问路径；Word文档需借OneDrive等第三方服务代理渲染；须处理跨域限制并提供下载降级方案。如果您希望在HTML5页面中嵌入PDF或Word文档并直接显示，可以使用或标签实现。以下是几种可行的嵌入方法：一、使用ifra…

程序猿
2025年12月23日
3000
好文分享

html5怎么写css_html5用style标签内嵌或外部css文件编写样式【编写】

可通过内嵌CSS、引入外部CSS文件或使用行内style属性为HTML5页面元素添加样式：一、用标签在中写CSS；二、用标签引用外部.css文件；三、在元素标签中直接写style属性。如果您希望在HTML5文档中为页面元素添加样式，则可以通过内嵌CSS或引入外部CSS文件来实现。以下是具体操作方法…

程序猿
2025年12月23日
0000
好文分享

html5怎么引入字体_HTML5用@font-face引入本地或网络字体文件【引入】

需用CSS的@font-face规则加载自定义字体，步骤包括：准备WOFF2/WOFF/TTF多格式文件并存放至项目目录；在CSS中为每种字重和样式单独声明@font-face；通过font-family应用字体；可选Google Fonts外链方式；添加font-display: swap缓解FO…

程序猿
2025年12月23日
1000