Python怎么读取一个大的CSV文件_pandas分块读取大型CSV文件策略

程序猿 • 2025年12月14日 11:03:50 • 好文分享 • 阅读 0

分块读取是处理大型CSV文件的核心策略，通过pandas的chunksize参数将文件分割为小块迭代加载，避免内存溢出；结合dtype优化、usecols筛选列、增量聚合及分块写入文件或数据库，可显著降低%ignore_a_1%并提升处理效率。

处理大型CSV文件，尤其是在内存有限的环境下，Python的pandas库提供了一个非常有效的策略：分块读取。核心思想是，不是一次性将整个文件加载到内存中，而是将其拆分成若干小块（chunks），逐块处理，这样可以显著降低内存占用，避免程序崩溃。

解决方案

当面对一个GB级别甚至更大的CSV文件时，直接使用

pd.read_csv()

往往会导致内存溢出（MemoryError）。我的经验告诉我，这时候最直接且有效的方法就是利用

read_csv

函数的

chunksize

参数。

chunksize

参数的作用是让

read_csv

返回一个迭代器（TextFileReader对象），每次迭代都会返回一个指定行数大小的DataFrame。这样，我们就可以在循环中逐个处理这些小块数据，而不是一次性加载全部。

import pandas as pdfile_path = 'your_large_file.csv'chunk_size = 100000 # 例如，每次读取10万行# 创建一个空的列表来存储处理后的数据块，如果需要最终合并的话processed_chunks = []try:    # read_csv 返回一个TextFileReader对象，可以像迭代器一样使用    for i, chunk in enumerate(pd.read_csv(file_path, chunksize=chunk_size)):        print(f"正在处理第 {i+1} 个数据块，行数: {len(chunk)}")        # 在这里对每个chunk进行你的数据处理、清洗、分析等操作        # 例如，筛选特定列、计算均值、聚合数据等        # processed_chunk = chunk[chunk['some_column'] > 0]         # 如果需要将处理后的数据块合并，可以添加到列表中        # processed_chunks.append(processed_chunk)        # 如果只是做一些统计或聚合，可能不需要存储整个chunk        # 例如：total_sum += chunk['value_column'].sum()except MemoryError:    print("内存溢出！请尝试减小 chunk_size。")except FileNotFoundError:    print(f"文件未找到: {file_path}")except Exception as e:    print(f"读取或处理文件时发生错误: {e}")# 如果之前存储了处理后的chunks，现在可以合并它们# final_df = pd.concat(processed_chunks, ignore_index=True)# print("所有数据块处理完毕并合并。")

这个策略的核心在于“化整为零”。每次只在内存中保留一小部分数据，处理完就释放掉，或者只保留处理结果，极大地缓解了内存压力。

立即学习“Python免费学习笔记（深入）”；

为什么我的Python脚本在读取大型CSV时会崩溃？（内存管理与数据加载机制）

你肯定遇到过那种情况：一个看似普通的CSV文件，在本地编辑器里打开没啥问题，但一用Python跑

pd.read_csv()

就直接报

MemoryError

。这其实是个老生常谈的问题，但每次遇到还是让人头疼。根本原因在于

pandas.read_csv()

在默认情况下，会尝试将整个CSV文件的内容一次性加载到你的计算机内存（RAM）中，并构建一个完整的DataFrame对象。

如果你的CSV文件有几个GB，而你的机器只有8GB或16GB内存，那么很容易就会超出可用内存上限。要知道，DataFrame在内存中的占用通常会比原始CSV文件大，因为数据类型转换、索引创建以及Python对象本身的开销都会增加内存消耗。举个例子，一个存储整数的列，在CSV里可能只是几个字符，但在DataFrame里可能会被存储为64位的整型对象，占用8字节，加上Python对象的额外开销，内存占用会迅速膨胀。当操作系统发现程序请求的内存超过了物理内存加上交换空间（swap space）的总和时，就会抛出

MemoryError

，或者更糟的是，直接杀死进程以防止系统崩溃。理解这一点，我们就能明白分块读取的必要性了。

如何有效地处理大型CSV数据块？（迭代处理与增量聚合）

分块读取只是第一步，更关键的是如何有效地处理这些数据块。这不仅仅是把

chunksize

参数加上那么简单，它还涉及到你的数据处理目标。

如果你的最终目标是得到一个完整的、经过处理的DataFrame，并且你认为即使处理后的DataFrame仍然可以放入内存，那么你可以将每个处理后的

chunk

添加到一个列表中，然后在循环结束后使用

pd.concat()

将它们合并。但要小心，如果最终合并的DataFrame还是太大，你又会回到原点。

更多时候，我们处理大型CSV是为了进行一些统计分析或聚合操作，比如计算总和、平均值、计数、最大最小值，或者进行一些数据清洗和过滤，然后将结果保存到另一个文件。在这种情况下，我们根本不需要将所有数据块合并成一个巨大的DataFrame。

我的做法通常是这样的：

增量聚合： 如果你需要计算总和、平均值等，可以在循环中维护一个累加器。

total_value = 0total_rows = 0for chunk in pd.read_csv(file_path, chunksize=chunk_size):    total_value += chunk['value_column'].sum()    total_rows += len(chunk)average_value = total_value / total_rows if total_rows else 0print(f"总平均值: {average_value}")

对于更复杂的聚合，比如按某个列分组求和，你可以对每个

chunk

进行

groupby().sum()

操作，然后将每个

chunk

的聚合结果合并（例如，使用

add

方法或者先转为Series再合并）。

筛选与过滤： 如果你只需要CSV中的一部分行或列，可以在每个

chunk

中进行筛选，然后只保留符合条件的数据。

filtered_data_chunks = []for chunk in pd.read_csv(file_path, chunksize=chunk_size):    # 假设我们只关心 'status' 列为 'active' 的行    filtered_chunk = chunk[chunk['status'] == 'active']    if not filtered_chunk.empty:        filtered_data_chunks.append(filtered_chunk)# 如果 filtered_data_chunks 不会太大，可以合并# final_filtered_df = pd.concat(filtered_data_chunks, ignore_index=True)# 或者直接将过滤后的数据写入新的CSV文件# if not filtered_data_chunks:#     pd.concat(filtered_data_chunks).to_csv('filtered_output.csv', index=False)# else:#     for i, fc in enumerate(filtered_data_chunks):#         if i == 0:#             fc.to_csv('filtered_output.csv', mode='w', header=True, index=False)#         else:#             fc.to_csv('filtered_output.csv', mode='a', header=False, index=False)

直接输出到数据库或新文件： 处理完每个

chunk

后，可以直接将结果写入数据库（使用

to_sql

）或新的CSV/Parquet文件。这是处理超大型数据集的常用方法，因为不需要在内存中保存中间结果。

# 假设你已经有了一个数据库连接 engine# from sqlalchemy import create_engine# engine = create_engine('sqlite:///my_database.db')# 第一次写入时创建表头，后续追加first_chunk = Truefor chunk in pd.read_csv(file_path, chunksize=chunk_size):    # 对 chunk 进行处理...    processed_chunk = chunk.dropna() # 举例：删除空值    # 写入新的CSV文件    if first_chunk:        processed_chunk.to_csv('processed_output.csv', mode='w', header=True, index=False)        first_chunk = False    else:        processed_chunk.to_csv('processed_output.csv', mode='a', header=False, index=False)    # 写入数据库 (如果需要)    # processed_chunk.to_sql('my_table', con=engine, if_exists='append', index=False)

这种方式的效率很高，因为它将内存消耗保持在最低水平，并将I/O操作分散开来。

除了分块读取，还有哪些策略可以优化大型CSV文件的处理？（性能调优与替代方案）

分块读取是解决内存问题的基石，但仅仅依靠它还不够。在实际工作中，我发现结合一些其他优化技巧，能让整个处理流程更加顺畅和高效。

精确指定数据类型（

dtype

）：CSV文件通常是文本格式，

pandas

在读取时会尝试推断每一列的数据类型。这个推断过程本身需要消耗时间和内存。更重要的是，它可能会将本来可以用更小内存表示的列（比如只有0和1的列）推断为

int64

甚至

object

。通过在

read_csv

中明确指定

dtype

参数，可以显著减少内存占用和提高读取速度。

# 示例：预先知道列的数据类型optimized_dtypes = {    'id': 'int32',    'category': 'category', # 对于重复值较少的字符串列，使用category类型可以节省大量内存    'value': 'float32',    'timestamp': 'datetime64[ns]'}for chunk in pd.read_csv(file_path, chunksize=chunk_size, dtype=optimized_dtypes):    # ...处理    pass

这需要你对数据有一定的了解，或者可以先读取少量数据来分析其类型分布。

只读取所需列（

usecols

）：如果你的CSV文件包含几十甚至上百列，但你只需要其中的几列进行分析，那么完全没必要读取所有列。使用

usecols

参数可以指定只加载感兴趣的列，这样可以大幅减少I/O开销和内存占用。

# 假设我们只需要 'id', 'name', 'score' 这几列required_columns = ['id', 'name', 'score']for chunk in pd.read_csv(file_path, chunksize=chunk_size, usecols=required_columns):    # ...处理    pass

选择合适的解析引擎（

engine

）：

pandas.read_csv

默认使用C引擎（

engine='c'

），它通常比Python引擎（

engine='python'

）快得多。但在某些特定情况下（例如，文件中有不规则的行或非常复杂的日期格式），Python引擎可能更健壮。通常情况下，保持默认的C引擎是最佳选择。

跳过不必要的行（

skiprows

,

nrows

）：如果文件开头有一些元数据行，可以使用

skiprows

跳过。如果只是想快速查看文件结构或进行小范围测试，可以使用

nrows

参数只读取文件的前N行。

考虑更高效的数据存储格式：对于真正意义上的“大数据”，CSV文件其实并不是最优选择。一旦数据经过清洗和预处理，我通常会将其转换为更高效的二进制格式，比如 Parquet 或 Feather。这些格式是列式存储的，支持数据压缩，并且读取速度比CSV快几个数量级。下次需要分析时，直接读取Parquet文件会快很多，内存占用也更低。

# 假设你已经处理完数据并得到了一个DataFrame# final_df.to_parquet('processed_data.parquet', index=False)# 以后读取：pd.read_parquet('processed_data.parquet')

Dask DataFrames：如果你的数据集真的大到即使分块处理也感觉力不从心，或者需要进行复杂的分布式计算，那么 Dask 是一个值得考虑的工具。Dask DataFrames 模仿了pandas API，但它能够在比内存更大的数据集上运行，并且可以轻松地扩展到多核处理器或集群上。它通过将大型DataFrame分解成多个小的pandas DataFrames，并延迟计算，来实现“out-of-core”处理。

# import dask.dataframe as dd# ddf = dd.read_csv(file_path, chunksize=chunk_size) # 或者直接 dd.read_csv(file_path)# result = ddf.groupby('category')['value'].mean().compute() # .compute() 触发实际计算

Dask的学习曲线比纯pandas略高，但对于处理TB级别的数据集，它提供了强大的解决方案。

这些策略并非相互独立，而是可以组合使用的。在处理大型数据集时，往往需要根据具体情况灵活选择和搭配，才能找到最适合的解决方案。

以上就是Python怎么读取一个大的CSV文件_pandas分块读取大型CSV文件策略的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1371014.html

app csv文件 go python python脚本 re 为什么内存占用处理器大数据工具操作系统计算机

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

SageMath中自定义现有数据类型美观打印输出的深度指南

上一篇 2025年12月14日 11:03:47

python如何计算两个日期之间的天数差_python计算两个日期相差天数的方法

下一篇 2025年12月14日 11:03:58

好文分享

CSS mask属性无法获取图片：为什么我的图片不见了？

CSS mask属性无法获取图片在使用CSS mask属性时，可能会遇到无法获取指定照片的情况。这个问题通常表现为：网络面板中没有请求图片：尽管CSS代码中指定了图片地址，但网络面板中却找不到图片的请求记录。问题原因：此问题的可能原因是浏览器的兼容性问题。某些较旧版本的浏览器可能不支持CSS…

程序猿
2025年12月24日
9000
好文分享

SASS 中的 Mixins

mixin 是 css 预处理器提供的工具，虽然它们不是可以被理解的函数，但它们的主要用途是重用代码。不止一次，我们需要创建多个类来执行相同的操作，但更改单个值，例如字体大小的多个类。 .fs-10 { font-size: 10px;}.fs-20 { font-size: 20px;}.fs-…

程序猿
2025年12月24日
0000
为什么设置 `overflow: hidden` 会导致 `inline-block` 元素错位？

overflow 导致 inline-block 元素错位解析当多个 inline-block 元素并列排列时，可能会出现错位显示的问题。这通常是由于其中一个元素设置了 overflow 属性引起的。问题现象在不设置 overflow 属性时，元素按预期显示在同一水平线上：不设置 overf…

程序猿
2025年12月24日 • 好文分享
4000
好文分享

网页使用本地字体：为什么 CSS 代码中明明指定了“荆南麦圆体”，页面却仍然显示“微软雅黑”？

网页中使用本地字体本文将解答如何将本地安装字体应用到网页中，避免使用 src 属性直接引入字体文件。问题：想要在网页上使用已安装的“荆南麦圆体”字体，但 css 代码中将其置于第一位的“font-family”属性，页面仍显示“微软雅黑”字体。立即学习“前端免费学习笔记（深入）”；答案： …

程序猿
2025年12月24日
0000
好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
2000
好文分享

为什么我的特定 DIV 在 Edge 浏览器中无法显示？

特定 DIV 无法显示：用户代理样式表的困扰当你在 Edge 浏览器中打开项目中的某个 div 时，却发现它无法正常显示，仔细检查样式后，发现是由用户代理样式表中的 display none 引起的。但你疑问的是，为什么会出现这样的样式表，而且只针对特定的 div？背后的原因用户代理样式表是由…

程序猿
2025年12月24日
2000
好文分享

inline-block元素错位了，是为什么？

inline-block元素错位背后的原因 inline-block元素是一种特殊类型的块级元素，它可以与其他元素行内排列。但是，在某些情况下，inline-block元素可能会出现错位显示的问题。错位的原因当inline-block元素设置了overflow:hidden属性时，它会影响元素的…

程序猿
2025年12月24日
0000
好文分享

为什么 CSS mask 属性未请求指定图片？

解决 css mask 属性未请求图片的问题在使用 css mask 属性时，指定了图片地址，但网络面板显示未请求获取该图片，这可能是由于浏览器兼容性问题造成的。问题如下代码所示：立即学习“前端免费学习笔记（深入）”； icon [data-icon=”cloud”] { –icon-cl…

程序猿
2025年12月24日
2000
好文分享

为什么使用 inline-block 元素时会错位？

inline-block 元素错位成因剖析在使用 inline-block 元素时，可能会遇到它们错位显示的问题。如代码 demo 所示，当设置了 overflow 属性时，a 标签就会错位下沉，而未设置时却不会。问题根源： overflow:hidden 属性影响了 inline-block …

程序猿
2025年12月24日
0000
好文分享

为什么我的 CSS 元素放大效果无法正常生效？

css 设置元素放大效果的疑问解答原提问者在尝试给元素添加 10em 字体大小和过渡效果后，未能在进入页面时看到放大效果。探究发现，原提问者将 CSS 代码直接写在页面中，导致放大效果无法触发。解决办法如下：将 CSS 样式写在一个单独的文件中，并使用标签引入该样式文件。这个操作与原提问者观…

程序猿
2025年12月24日
0000
好文分享

为什么我的 em 和 transition 设置后元素没有放大？

元素设置 em 和 transition 后不放大一个 youtube 视频中展示了设置 em 和 transition 的元素在页面加载后会放大，但同样的代码在提问者电脑上没有达到预期效果。可能原因：问题在于 css 代码的位置。在视频中，css 被放置在单独的文件中并通过 link 标签引…

程序猿
2025年12月24日
1000
好文分享

为什么在父元素为inline或inline-block时，子元素设置width: 100%会出现不同的显示效果？

width:100%在父元素为inline或inline-block下的显示问题问题提出当父元素为inline或inline-block时，内部元素设置width:100%会出现不同的显示效果。以代码为例：测试内容这是inline-block span 效果1：父元素为inline-bloc…

程序猿
2025年12月24日
4000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
2000
好文分享

React 或 Vite 是否会自动加载 CSS？

React 或 Vite 是否自动加载 CSS？在 React 中，如果未显式导入 CSS，而页面却出现了 CSS 效果，这可能是以下原因造成的：你使用的第三方组件库，例如 AntD，包含了自己的 CSS 样式。这些组件库在使用时会自动加载其 CSS 样式，无需显式导入。在你的代码示例中，cla…

程序猿
2025年12月24日
0000
好文分享

React 和 Vite 如何处理 CSS 加载？

React 或 Vite 是否会自动加载 CSS？在 React 中，默认情况下，使用 CSS 模块化时，不会自动加载 CSS 文件。需要手动导入或使用 CSS-in-JS 等技术才能应用样式。然而，如果使用了第三方组件库，例如 Ant Design，其中包含 CSS 样式，则这些样式可能会自动加…

程序猿
2025年12月24日
0000
好文分享

ElementUI el-table 子节点选中后为什么没有打勾？

elementui el-table子节点选中后没有打勾？当您在elementui的el-table中选择子节点时，但没有出现打勾效果，可能是以下原因造成的：在 element-ui 版本 2.15.7 中存在这个问题，升级到最新版本 2.15.13 即可解决。除此之外，请确保您遵循了以下步骤…

程序猿
2025年12月24日
2000
好文分享

您不需要 CSS 预处理器

原生 css 在最近几个月/几年里取得了长足的进步。在这篇文章中，我将回顾人们使用 sass、less 和 stylus 等 css 预处理器的主要原因，并向您展示如何使用原生 css 完成这些相同的事情。分隔文件分离文件是人们使用预处理器的主要原因之一。尽管您已经能够将另一个文件导入到 css…

程序猿
2025年12月24日
0000
好文分享

CSS 中如何正确使用 box-shadow 设置透明度阴影？

css 中覆盖默认 box-shadow 样式时的报错问题在尝试修改导航栏阴影时遇到报错，分析发现是 box-shadow 样式引起的问题。问题原因使用 !important 仍无法覆盖默认样式的原因在于，你使用了 rgb() 而不是 rgba()，这会导致语法错误。立即学习“前端免费学习笔…

程序猿
2025年12月24日
3000
好文分享

为何scss中嵌套使用/*rtl:ignore*/无法被postcss-rtl插件识别？

postcss-rtl插件为何不支持在scss中嵌套使用/*rtl:ignore*/ 在使用postcss-rtl插件时，如果希望对某个样式不进行转换，可以使用/*rtl:ignore*/在选择器前面进行声明。然而，当样式文件为scss格式时，该声明可能会失效，而写在css文件中则有效。原因 po…

程序猿
2025年12月24日
0000
好文分享

Bear 博客上的浅色/深色模式分步指南

我最近使用偏好颜色方案媒体功能与 light-dark() 颜色函数相结合，在我的 bear 博客上实现了亮/暗模式切换。我是这样做的。第 1 步：设置 css css 在过去几年中获得了一些很酷的新功能，包括 light-dark() 颜色函数。此功能可让您为任何元素指定两种颜色 &#8211…

程序猿
2025年12月24日
1000