高效处理大量CSV文件：Pandas循环优化与多线程应用

程序猿 • 2025年12月14日 22:28:51 • 好文分享 • 阅读 0

本文旨在解决在循环中处理大量CSV文件时遇到的性能瓶颈问题，重点介绍如何通过避免在循环中使用`concat`操作，以及利用Python字典和`pandas.concat`函数进行优化。此外，还探讨了使用多线程并行处理CSV文件以进一步提升效率的方法，并提供详细的代码示例和解释。

Pandas循环处理大量CSV文件的优化策略

在数据处理任务中，经常需要循环读取并处理大量的CSV文件。如果每个文件的数据量较大，且文件数量众多，那么循环中的某些操作可能会成为性能瓶颈，导致程序运行缓慢。其中，在循环中频繁使用pandas.concat函数就是一个常见的性能问题。

问题分析：为什么循环中的concat很慢？

pandas.concat函数用于将多个DataFrame对象沿着指定的轴进行连接。当在循环中调用concat时，每次迭代都会创建一个新的DataFrame对象，并将之前的结果复制到新的对象中。这种频繁的内存分配和数据复制操作会消耗大量的时间和资源，导致程序运行效率低下。

解决方案：避免循环中的concat

为了解决这个问题，可以采用以下策略：

将数据收集到Python字典中： 在循环中，将每个CSV文件读取并处理后的数据存储到Python字典中，其中键可以是文件名或其他标识符，值是对应的DataFrame或Series对象。一次性concat： 在循环结束后，使用pandas.concat函数将字典中的所有DataFrame或Series对象一次性连接起来。

这种方法避免了在循环中频繁创建和复制DataFrame对象，从而显著提高了程序的运行效率。

代码示例：使用字典和concat优化循环

以下代码示例演示了如何使用字典和pandas.concat函数优化循环处理CSV文件的过程：

import pathlibimport pandas as pd# 假设 root_path 是包含所有CSV文件的根目录root_path = pathlib.Path('root')# 创建一个DataFrame，其中包含文件ID和文件名df = pd.DataFrame({'File ID': ['folderA', 'folderB'], 'File Name': ['file001.txt', 'file002.txt']})data = {}for count, (_, row) in enumerate(df.iterrows(), 1):    folder_name = row['File ID'].strip()    file_name = row['File Name'].strip()    file_path = root_path / folder_name / file_name    folder_file_id = f'{folder_name}_{file_name}'    # 读取CSV文件，并指定列名和分隔符    file_data = pd.read_csv(file_path, header=None, sep='t',                            names=['Case', folder_file_id],                            memory_map=True, low_memory=False)    # 将 'Case' 列设置为索引，并将 DataFrame 转换为 Series    data[folder_file_id] = file_data.set_index('Case').squeeze()    print(count)# 使用 pandas.concat 函数将字典中的所有 Series 对象连接起来merged_data = (pd.concat(data, names=['folder_file_id'])                 .unstack('Case').reset_index())print(merged_data)

代码解释：

pathlib.Path 用于更方便地处理文件路径。enumerate 函数用于在循环中同时获取索引和行数据。file_data.set_index(‘Case’).squeeze() 将 ‘Case’ 列设置为索引，并将 DataFrame 转换为 Series，这可以简化后续的连接操作。pd.concat(data, names=[‘folder_file_id’]) 将字典 data 中的所有 Series 对象沿着索引连接起来，并使用 folder_file_id 作为索引的名称。.unstack(‘Case’) 将 ‘Case’ 索引转换为列，.reset_index() 重置索引。

注意事项：

确保所有CSV文件具有相同的列结构，以便能够正确地连接它们。根据实际情况调整pandas.read_csv函数的参数，例如sep（分隔符）、header（是否包含标题行）等。如果CSV文件非常大，可以考虑使用chunksize参数分块读取文件，以减少内存占用。

多线程并行处理CSV文件

除了避免循环中的concat操作，还可以使用多线程并行处理CSV文件，以进一步提高程序的运行效率。多线程可以将任务分解成多个子任务，并同时执行这些子任务，从而缩短总的运行时间。

代码示例：使用多线程并行处理CSV文件

以下代码示例演示了如何使用concurrent.futures.ThreadPoolExecutor实现多线程并行处理CSV文件的过程：

from concurrent.futures import ThreadPoolExecutorimport pathlibimport pandas as pd# 假设 root_path 是包含所有CSV文件的根目录root_path = pathlib.Path('root')# 创建一个DataFrame，其中包含文件ID和文件名df = pd.DataFrame({'File ID': ['folderA', 'folderB'], 'File Name': ['file001.txt', 'file002.txt']})def read_csv(args):    count, row = args  # expand arguments    folder_name = row['File ID'].strip()    file_name = row['File Name'].strip()    file_path = root_path / folder_name / file_name    folder_file_id = f'{folder_name}_{file_name}'    # 读取CSV文件，并指定列名和分隔符    file_data = pd.read_csv(file_path, header=None, sep='t',                            names=['Case', folder_file_id],                            memory_map=True, low_memory=False)    print(count)    return folder_file_id, file_data.set_index('Case').squeeze()with ThreadPoolExecutor(max_workers=2) as executor:    batch = enumerate(df[['File ID', 'File Name']].to_dict('records'), 1)    data = executor.map(read_csv, batch)merged_data = (pd.concat(dict(data), names=['folder_file_id'])                 .unstack('Case').reset_index())print(merged_data)

代码解释：

concurrent.futures.ThreadPoolExecutor 用于创建线程池，管理和调度线程的执行。max_workers 参数指定线程池中线程的最大数量。executor.map(read_csv, batch) 将 read_csv 函数应用到 batch 中的每个元素，并返回一个迭代器，其中包含每个线程的返回值。dict(data) 将迭代器转换为字典，其中键是文件名，值是对应的DataFrame或Series对象。

注意事项：

多线程并非总是能够提高程序的运行效率。如果任务本身是I/O密集型的（例如，读取大量小文件），那么多线程可能会受到磁盘I/O的限制，导致性能提升不明显。在使用多线程时，需要注意线程安全问题。如果多个线程同时访问和修改共享数据，可能会导致数据不一致或其他错误。

总结

本文介绍了如何通过避免在循环中使用concat操作，以及利用Python字典和pandas.concat函数，以及多线程并行处理CSV文件来优化循环处理大量CSV文件的过程。这些方法可以显著提高程序的运行效率，并减少内存占用。在实际应用中，可以根据具体情况选择合适的优化策略。

以上就是高效处理大量CSV文件：Pandas循环优化与多线程应用的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1380874.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

在DynamoDB中实现高效自增ID的两种策略

上一篇 2025年12月14日 22:28:43

Python子进程高级管理：非阻塞I/O与定时执行外部脚本

下一篇 2025年12月14日 22:28:55

好文分享

CSS mask属性无法获取图片：为什么我的图片不见了？

CSS mask属性无法获取图片在使用CSS mask属性时，可能会遇到无法获取指定照片的情况。这个问题通常表现为：网络面板中没有请求图片：尽管CSS代码中指定了图片地址，但网络面板中却找不到图片的请求记录。问题原因：此问题的可能原因是浏览器的兼容性问题。某些较旧版本的浏览器可能不支持CSS…

程序猿
2025年12月24日
9000
为什么设置 `overflow: hidden` 会导致 `inline-block` 元素错位？

overflow 导致 inline-block 元素错位解析当多个 inline-block 元素并列排列时，可能会出现错位显示的问题。这通常是由于其中一个元素设置了 overflow 属性引起的。问题现象在不设置 overflow 属性时，元素按预期显示在同一水平线上：不设置 overf…

程序猿
2025年12月24日 • 好文分享
4000
好文分享

网页使用本地字体：为什么 CSS 代码中明明指定了“荆南麦圆体”，页面却仍然显示“微软雅黑”？

网页中使用本地字体本文将解答如何将本地安装字体应用到网页中，避免使用 src 属性直接引入字体文件。问题：想要在网页上使用已安装的“荆南麦圆体”字体，但 css 代码中将其置于第一位的“font-family”属性，页面仍显示“微软雅黑”字体。立即学习“前端免费学习笔记（深入）”；答案： …

程序猿
2025年12月24日
0000
好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
2000
好文分享

为什么我的特定 DIV 在 Edge 浏览器中无法显示？

特定 DIV 无法显示：用户代理样式表的困扰当你在 Edge 浏览器中打开项目中的某个 div 时，却发现它无法正常显示，仔细检查样式后，发现是由用户代理样式表中的 display none 引起的。但你疑问的是，为什么会出现这样的样式表，而且只针对特定的 div？背后的原因用户代理样式表是由…

程序猿
2025年12月24日
2000
好文分享

inline-block元素错位了，是为什么？

inline-block元素错位背后的原因 inline-block元素是一种特殊类型的块级元素，它可以与其他元素行内排列。但是，在某些情况下，inline-block元素可能会出现错位显示的问题。错位的原因当inline-block元素设置了overflow:hidden属性时，它会影响元素的…

程序猿
2025年12月24日
0000
好文分享

为什么 CSS mask 属性未请求指定图片？

解决 css mask 属性未请求图片的问题在使用 css mask 属性时，指定了图片地址，但网络面板显示未请求获取该图片，这可能是由于浏览器兼容性问题造成的。问题如下代码所示：立即学习“前端免费学习笔记（深入）”； icon [data-icon=”cloud”] { –icon-cl…

程序猿
2025年12月24日
2000
好文分享

为什么使用 inline-block 元素时会错位？

inline-block 元素错位成因剖析在使用 inline-block 元素时，可能会遇到它们错位显示的问题。如代码 demo 所示，当设置了 overflow 属性时，a 标签就会错位下沉，而未设置时却不会。问题根源： overflow:hidden 属性影响了 inline-block …

程序猿
2025年12月24日
0000
好文分享

为什么我的 CSS 元素放大效果无法正常生效？

css 设置元素放大效果的疑问解答原提问者在尝试给元素添加 10em 字体大小和过渡效果后，未能在进入页面时看到放大效果。探究发现，原提问者将 CSS 代码直接写在页面中，导致放大效果无法触发。解决办法如下：将 CSS 样式写在一个单独的文件中，并使用标签引入该样式文件。这个操作与原提问者观…

程序猿
2025年12月24日
0000
好文分享

为什么我的 em 和 transition 设置后元素没有放大？

元素设置 em 和 transition 后不放大一个 youtube 视频中展示了设置 em 和 transition 的元素在页面加载后会放大，但同样的代码在提问者电脑上没有达到预期效果。可能原因：问题在于 css 代码的位置。在视频中，css 被放置在单独的文件中并通过 link 标签引…

程序猿
2025年12月24日
1000
好文分享

为什么在父元素为inline或inline-block时，子元素设置width: 100%会出现不同的显示效果？

width:100%在父元素为inline或inline-block下的显示问题问题提出当父元素为inline或inline-block时，内部元素设置width:100%会出现不同的显示效果。以代码为例：测试内容这是inline-block span 效果1：父元素为inline-bloc…

程序猿
2025年12月24日
4000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
2000
好文分享

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
0000
好文分享

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
0000
好文分享

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
0000
好文分享

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
好文分享

应对性能瓶颈：前端工程师的重绘与回流解决方案

重绘和回流解密：前端工程师如何应对性能瓶颈引言：随着互联网的快速发展，前端工程师的角色越来越重要。他们需要处理用户界面的设计和开发，同时还要关注网站性能的优化。在前端性能优化中，重绘和回流是常见的性能瓶颈。本文将详细介绍重绘和回流的原理，并提供一些实用的代码示例，帮助前端工程师应对性能瓶颈。一、…

程序猿
2025年12月24日
2000
好文分享

html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

HTML5无法直接导出video标签内容，需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制；FFmpeg.wasm支持MP4等格式及精细编码控制；服务端方案适合高负载场景。如果您希望在网页…

程序猿
2025年12月23日
3000
好文分享

如何查看编写的html_查看自己编写的HTML文件效果【效果】

要查看HTML文件的浏览器渲染效果，需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。如果您编写了HTML代码，但无法直观看到其在浏览器中的实际渲染效果，则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

程序猿
2025年12月23日
4000
好文分享

html5怎么打包运行_HT5用Webpack或Gulp打包后浏览器打开运行【打包】

应通过 HTTP 服务运行打包后的 HTML5 页面，而非双击打开：一、Webpack 配 webpack-dev-server 启动本地服务；二、Gulp 配 BrowserSync 提供实时重载；三、用 Python/Node.js 轻量 HTTP 工具托管 dist 目录；四、仅当必须双击运行…

程序猿
2025年12月23日
0000