Python怎么读取一个大的CSV文件_pandas分块读取大型CSV文件策略

分块读取是处理大型CSV文件的核心策略,通过pandas的chunksize参数将文件分割为小块迭代加载,避免内存溢出;结合dtype优化、usecols筛选列、增量聚合及分块写入文件或数据库,可显著降低%ignore_a_1%并提升处理效率。

python怎么读取一个大的csv文件_pandas分块读取大型csv文件策略

处理大型CSV文件,尤其是在内存有限的环境下,Python的pandas库提供了一个非常有效的策略:分块读取。核心思想是,不是一次性将整个文件加载到内存中,而是将其拆分成若干小块(chunks),逐块处理,这样可以显著降低内存占用,避免程序崩溃。

解决方案

当面对一个GB级别甚至更大的CSV文件时,直接使用

pd.read_csv()

往往会导致内存溢出(MemoryError)。我的经验告诉我,这时候最直接且有效的方法就是利用

read_csv

函数的

chunksize

参数。

chunksize

参数的作用是让

read_csv

返回一个迭代器(TextFileReader对象),每次迭代都会返回一个指定行数大小的DataFrame。这样,我们就可以在循环中逐个处理这些小块数据,而不是一次性加载全部。

import pandas as pdfile_path = 'your_large_file.csv'chunk_size = 100000 # 例如,每次读取10万行# 创建一个空的列表来存储处理后的数据块,如果需要最终合并的话processed_chunks = []try:    # read_csv 返回一个TextFileReader对象,可以像迭代器一样使用    for i, chunk in enumerate(pd.read_csv(file_path, chunksize=chunk_size)):        print(f"正在处理第 {i+1} 个数据块,行数: {len(chunk)}")        # 在这里对每个chunk进行你的数据处理、清洗、分析等操作        # 例如,筛选特定列、计算均值、聚合数据等        # processed_chunk = chunk[chunk['some_column'] > 0]         # 如果需要将处理后的数据块合并,可以添加到列表中        # processed_chunks.append(processed_chunk)        # 如果只是做一些统计或聚合,可能不需要存储整个chunk        # 例如:total_sum += chunk['value_column'].sum()except MemoryError:    print("内存溢出!请尝试减小 chunk_size。")except FileNotFoundError:    print(f"文件未找到: {file_path}")except Exception as e:    print(f"读取或处理文件时发生错误: {e}")# 如果之前存储了处理后的chunks,现在可以合并它们# final_df = pd.concat(processed_chunks, ignore_index=True)# print("所有数据块处理完毕并合并。")

这个策略的核心在于“化整为零”。每次只在内存中保留一小部分数据,处理完就释放掉,或者只保留处理结果,极大地缓解了内存压力。

立即学习“Python免费学习笔记(深入)”;

为什么我的Python脚本在读取大型CSV时会崩溃?(内存管理与数据加载机制)

你肯定遇到过那种情况:一个看似普通的CSV文件,在本地编辑器里打开没啥问题,但一用Python跑

pd.read_csv()

就直接报

MemoryError

。这其实是个老生常谈的问题,但每次遇到还是让人头疼。根本原因在于

pandas.read_csv()

在默认情况下,会尝试将整个CSV文件的内容一次性加载到你的计算机内存(RAM)中,并构建一个完整的DataFrame对象。

如果你的CSV文件有几个GB,而你的机器只有8GB或16GB内存,那么很容易就会超出可用内存上限。要知道,DataFrame在内存中的占用通常会比原始CSV文件大,因为数据类型转换、索引创建以及Python对象本身的开销都会增加内存消耗。举个例子,一个存储整数的列,在CSV里可能只是几个字符,但在DataFrame里可能会被存储为64位的整型对象,占用8字节,加上Python对象的额外开销,内存占用会迅速膨胀。当操作系统发现程序请求的内存超过了物理内存加上交换空间(swap space)的总和时,就会抛出

MemoryError

,或者更糟的是,直接杀死进程以防止系统崩溃。理解这一点,我们就能明白分块读取的必要性了。

如何有效地处理大型CSV数据块?(迭代处理与增量聚合)

分块读取只是第一步,更关键的是如何有效地处理这些数据块。这不仅仅是把

chunksize

参数加上那么简单,它还涉及到你的数据处理目标。

如果你的最终目标是得到一个完整的、经过处理的DataFrame,并且你认为即使处理后的DataFrame仍然可以放入内存,那么你可以将每个处理后的

chunk

添加到一个列表中,然后在循环结束后使用

pd.concat()

将它们合并。但要小心,如果最终合并的DataFrame还是太大,你又会回到原点。

更多时候,我们处理大型CSV是为了进行一些统计分析或聚合操作,比如计算总和、平均值、计数、最大最小值,或者进行一些数据清洗和过滤,然后将结果保存到另一个文件。在这种情况下,我们根本不需要将所有数据块合并成一个巨大的DataFrame。

我的做法通常是这样的:

增量聚合: 如果你需要计算总和、平均值等,可以在循环中维护一个累加器。

total_value = 0total_rows = 0for chunk in pd.read_csv(file_path, chunksize=chunk_size):    total_value += chunk['value_column'].sum()    total_rows += len(chunk)average_value = total_value / total_rows if total_rows else 0print(f"总平均值: {average_value}")

对于更复杂的聚合,比如按某个列分组求和,你可以对每个

chunk

进行

groupby().sum()

操作,然后将每个

chunk

的聚合结果合并(例如,使用

add

方法或者先转为Series再合并)。

筛选与过滤: 如果你只需要CSV中的一部分行或列,可以在每个

chunk

中进行筛选,然后只保留符合条件的数据。

filtered_data_chunks = []for chunk in pd.read_csv(file_path, chunksize=chunk_size):    # 假设我们只关心 'status' 列为 'active' 的行    filtered_chunk = chunk[chunk['status'] == 'active']    if not filtered_chunk.empty:        filtered_data_chunks.append(filtered_chunk)# 如果 filtered_data_chunks 不会太大,可以合并# final_filtered_df = pd.concat(filtered_data_chunks, ignore_index=True)# 或者直接将过滤后的数据写入新的CSV文件# if not filtered_data_chunks:#     pd.concat(filtered_data_chunks).to_csv('filtered_output.csv', index=False)# else:#     for i, fc in enumerate(filtered_data_chunks):#         if i == 0:#             fc.to_csv('filtered_output.csv', mode='w', header=True, index=False)#         else:#             fc.to_csv('filtered_output.csv', mode='a', header=False, index=False)

直接输出到数据库或新文件: 处理完每个

chunk

后,可以直接将结果写入数据库(使用

to_sql

)或新的CSV/Parquet文件。这是处理超大型数据集的常用方法,因为不需要在内存中保存中间结果。

# 假设你已经有了一个数据库连接 engine# from sqlalchemy import create_engine# engine = create_engine('sqlite:///my_database.db')# 第一次写入时创建表头,后续追加first_chunk = Truefor chunk in pd.read_csv(file_path, chunksize=chunk_size):    # 对 chunk 进行处理...    processed_chunk = chunk.dropna() # 举例:删除空值    # 写入新的CSV文件    if first_chunk:        processed_chunk.to_csv('processed_output.csv', mode='w', header=True, index=False)        first_chunk = False    else:        processed_chunk.to_csv('processed_output.csv', mode='a', header=False, index=False)    # 写入数据库 (如果需要)    # processed_chunk.to_sql('my_table', con=engine, if_exists='append', index=False)

这种方式的效率很高,因为它将内存消耗保持在最低水平,并将I/O操作分散开来。

除了分块读取,还有哪些策略可以优化大型CSV文件的处理?(性能调优与替代方案)

分块读取是解决内存问题的基石,但仅仅依靠它还不够。在实际工作中,我发现结合一些其他优化技巧,能让整个处理流程更加顺畅和高效。

精确指定数据类型(

dtype

:CSV文件通常是文本格式,

pandas

在读取时会尝试推断每一列的数据类型。这个推断过程本身需要消耗时间和内存。更重要的是,它可能会将本来可以用更小内存表示的列(比如只有0和1的列)推断为

int64

甚至

object

。通过在

read_csv

中明确指定

dtype

参数,可以显著减少内存占用和提高读取速度。

# 示例:预先知道列的数据类型optimized_dtypes = {    'id': 'int32',    'category': 'category', # 对于重复值较少的字符串列,使用category类型可以节省大量内存    'value': 'float32',    'timestamp': 'datetime64[ns]'}for chunk in pd.read_csv(file_path, chunksize=chunk_size, dtype=optimized_dtypes):    # ...处理    pass

这需要你对数据有一定的了解,或者可以先读取少量数据来分析其类型分布。

只读取所需列(

usecols

:如果你的CSV文件包含几十甚至上百列,但你只需要其中的几列进行分析,那么完全没必要读取所有列。使用

usecols

参数可以指定只加载感兴趣的列,这样可以大幅减少I/O开销和内存占用。

# 假设我们只需要 'id', 'name', 'score' 这几列required_columns = ['id', 'name', 'score']for chunk in pd.read_csv(file_path, chunksize=chunk_size, usecols=required_columns):    # ...处理    pass

选择合适的解析引擎(

engine

pandas.read_csv

默认使用C引擎(

engine='c'

),它通常比Python引擎(

engine='python'

)快得多。但在某些特定情况下(例如,文件中有不规则的行或非常复杂的日期格式),Python引擎可能更健壮。通常情况下,保持默认的C引擎是最佳选择。

跳过不必要的行(

skiprows

,

nrows

:如果文件开头有一些元数据行,可以使用

skiprows

跳过。如果只是想快速查看文件结构或进行小范围测试,可以使用

nrows

参数只读取文件的前N行。

考虑更高效的数据存储格式:对于真正意义上的“大数据”,CSV文件其实并不是最优选择。一旦数据经过清洗和预处理,我通常会将其转换为更高效的二进制格式,比如 ParquetFeather。这些格式是列式存储的,支持数据压缩,并且读取速度比CSV快几个数量级。下次需要分析时,直接读取Parquet文件会快很多,内存占用也更低。

# 假设你已经处理完数据并得到了一个DataFrame# final_df.to_parquet('processed_data.parquet', index=False)# 以后读取:pd.read_parquet('processed_data.parquet')

Dask DataFrames:如果你的数据集真的大到即使分块处理也感觉力不从心,或者需要进行复杂的分布式计算,那么 Dask 是一个值得考虑的工具。Dask DataFrames 模仿了pandas API,但它能够在比内存更大的数据集上运行,并且可以轻松地扩展到多核处理器或集群上。它通过将大型DataFrame分解成多个小的pandas DataFrames,并延迟计算,来实现“out-of-core”处理。

# import dask.dataframe as dd# ddf = dd.read_csv(file_path, chunksize=chunk_size) # 或者直接 dd.read_csv(file_path)# result = ddf.groupby('category')['value'].mean().compute() # .compute() 触发实际计算

Dask的学习曲线比纯pandas略高,但对于处理TB级别的数据集,它提供了强大的解决方案。

这些策略并非相互独立,而是可以组合使用的。在处理大型数据集时,往往需要根据具体情况灵活选择和搭配,才能找到最适合的解决方案。

以上就是Python怎么读取一个大的CSV文件_pandas分块读取大型CSV文件策略的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1371014.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 11:03:47
下一篇 2025年12月14日 11:03:58

相关推荐

  • CSS mask属性无法获取图片:为什么我的图片不见了?

    CSS mask属性无法获取图片 在使用CSS mask属性时,可能会遇到无法获取指定照片的情况。这个问题通常表现为: 网络面板中没有请求图片:尽管CSS代码中指定了图片地址,但网络面板中却找不到图片的请求记录。 问题原因: 此问题的可能原因是浏览器的兼容性问题。某些较旧版本的浏览器可能不支持CSS…

    2025年12月24日
    900
  • SASS 中的 Mixins

    mixin 是 css 预处理器提供的工具,虽然它们不是可以被理解的函数,但它们的主要用途是重用代码。 不止一次,我们需要创建多个类来执行相同的操作,但更改单个值,例如字体大小的多个类。 .fs-10 { font-size: 10px;}.fs-20 { font-size: 20px;}.fs-…

    2025年12月24日
    000
  • 为什么设置 `overflow: hidden` 会导致 `inline-block` 元素错位?

    overflow 导致 inline-block 元素错位解析 当多个 inline-block 元素并列排列时,可能会出现错位显示的问题。这通常是由于其中一个元素设置了 overflow 属性引起的。 问题现象 在不设置 overflow 属性时,元素按预期显示在同一水平线上: 不设置 overf…

    2025年12月24日 好文分享
    400
  • 网页使用本地字体:为什么 CSS 代码中明明指定了“荆南麦圆体”,页面却仍然显示“微软雅黑”?

    网页中使用本地字体 本文将解答如何将本地安装字体应用到网页中,避免使用 src 属性直接引入字体文件。 问题: 想要在网页上使用已安装的“荆南麦圆体”字体,但 css 代码中将其置于第一位的“font-family”属性,页面仍显示“微软雅黑”字体。 立即学习“前端免费学习笔记(深入)”; 答案: …

    2025年12月24日
    000
  • 如何解决本地图片在使用 mask JS 库时出现的跨域错误?

    如何跨越localhost使用本地图片? 问题: 在本地使用mask js库时,引入本地图片会报跨域错误。 解决方案: 要解决此问题,需要使用本地服务器启动文件,以http或https协议访问图片,而不是使用file://协议。例如: python -m http.server 8000 然后,可以…

    2025年12月24日
    200
  • 为什么我的特定 DIV 在 Edge 浏览器中无法显示?

    特定 DIV 无法显示:用户代理样式表的困扰 当你在 Edge 浏览器中打开项目中的某个 div 时,却发现它无法正常显示,仔细检查样式后,发现是由用户代理样式表中的 display none 引起的。但你疑问的是,为什么会出现这样的样式表,而且只针对特定的 div? 背后的原因 用户代理样式表是由…

    2025年12月24日
    200
  • inline-block元素错位了,是为什么?

    inline-block元素错位背后的原因 inline-block元素是一种特殊类型的块级元素,它可以与其他元素行内排列。但是,在某些情况下,inline-block元素可能会出现错位显示的问题。 错位的原因 当inline-block元素设置了overflow:hidden属性时,它会影响元素的…

    2025年12月24日
    000
  • 为什么 CSS mask 属性未请求指定图片?

    解决 css mask 属性未请求图片的问题 在使用 css mask 属性时,指定了图片地址,但网络面板显示未请求获取该图片,这可能是由于浏览器兼容性问题造成的。 问题 如下代码所示: 立即学习“前端免费学习笔记(深入)”; icon [data-icon=”cloud”] { –icon-cl…

    2025年12月24日
    200
  • 为什么使用 inline-block 元素时会错位?

    inline-block 元素错位成因剖析 在使用 inline-block 元素时,可能会遇到它们错位显示的问题。如代码 demo 所示,当设置了 overflow 属性时,a 标签就会错位下沉,而未设置时却不会。 问题根源: overflow:hidden 属性影响了 inline-block …

    2025年12月24日
    000
  • 为什么我的 CSS 元素放大效果无法正常生效?

    css 设置元素放大效果的疑问解答 原提问者在尝试给元素添加 10em 字体大小和过渡效果后,未能在进入页面时看到放大效果。探究发现,原提问者将 CSS 代码直接写在页面中,导致放大效果无法触发。 解决办法如下: 将 CSS 样式写在一个单独的文件中,并使用 标签引入该样式文件。这个操作与原提问者观…

    2025年12月24日
    000
  • 为什么我的 em 和 transition 设置后元素没有放大?

    元素设置 em 和 transition 后不放大 一个 youtube 视频中展示了设置 em 和 transition 的元素在页面加载后会放大,但同样的代码在提问者电脑上没有达到预期效果。 可能原因: 问题在于 css 代码的位置。在视频中,css 被放置在单独的文件中并通过 link 标签引…

    2025年12月24日
    100
  • 为什么在父元素为inline或inline-block时,子元素设置width: 100%会出现不同的显示效果?

    width:100%在父元素为inline或inline-block下的显示问题 问题提出 当父元素为inline或inline-block时,内部元素设置width:100%会出现不同的显示效果。以代码为例: 测试内容 这是inline-block span 效果1:父元素为inline-bloc…

    2025年12月24日
    400
  • 使用 Mask 导入本地图片时,如何解决跨域问题?

    跨域疑难:如何解决 mask 引入本地图片产生的跨域问题? 在使用 mask 导入本地图片时,你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢?让我们深入了解一下: mask 框架假设你以 http(s) 协议加载你的 html 文件,而当使用 file:// 协议打开本地文件时,就会产生跨域…

    2025年12月24日
    200
  • React 或 Vite 是否会自动加载 CSS?

    React 或 Vite 是否自动加载 CSS? 在 React 中,如果未显式导入 CSS,而页面却出现了 CSS 效果,这可能是以下原因造成的: 你使用的第三方组件库,例如 AntD,包含了自己的 CSS 样式。这些组件库在使用时会自动加载其 CSS 样式,无需显式导入。在你的代码示例中,cla…

    2025年12月24日
    000
  • React 和 Vite 如何处理 CSS 加载?

    React 或 Vite 是否会自动加载 CSS? 在 React 中,默认情况下,使用 CSS 模块化时,不会自动加载 CSS 文件。需要手动导入或使用 CSS-in-JS 等技术才能应用样式。然而,如果使用了第三方组件库,例如 Ant Design,其中包含 CSS 样式,则这些样式可能会自动加…

    2025年12月24日
    000
  • ElementUI el-table 子节点选中后为什么没有打勾?

    elementui el-table子节点选中后没有打勾? 当您在elementui的el-table中选择子节点时,但没有出现打勾效果,可能是以下原因造成的: 在 element-ui 版本 2.15.7 中存在这个问题,升级到最新版本 2.15.13 即可解决。 除此之外,请确保您遵循了以下步骤…

    2025年12月24日
    200
  • 您不需要 CSS 预处理器

    原生 css 在最近几个月/几年里取得了长足的进步。在这篇文章中,我将回顾人们使用 sass、less 和 stylus 等 css 预处理器的主要原因,并向您展示如何使用原生 css 完成这些相同的事情。 分隔文件 分离文件是人们使用预处理器的主要原因之一。尽管您已经能够将另一个文件导入到 css…

    2025年12月24日
    000
  • CSS 中如何正确使用 box-shadow 设置透明度阴影?

    css 中覆盖默认 box-shadow 样式时的报错问题 在尝试修改导航栏阴影时遇到报错,分析发现是 box-shadow 样式引起的问题。 问题原因 使用 !important 仍无法覆盖默认样式的原因在于,你使用了 rgb() 而不是 rgba(),这会导致语法错误。 立即学习“前端免费学习笔…

    2025年12月24日
    300
  • 为何scss中嵌套使用/*rtl:ignore*/无法被postcss-rtl插件识别?

    postcss-rtl插件为何不支持在scss中嵌套使用/*rtl:ignore*/ 在使用postcss-rtl插件时,如果希望对某个样式不进行转换,可以使用/*rtl:ignore*/在选择器前面进行声明。然而,当样式文件为scss格式时,该声明可能会失效,而写在css文件中则有效。 原因 po…

    2025年12月24日
    000
  • Bear 博客上的浅色/深色模式分步指南

    我最近使用偏好颜色方案媒体功能与 light-dark() 颜色函数相结合,在我的 bear 博客上实现了亮/暗模式切换。 我是这样做的。 第 1 步:设置 css css 在过去几年中获得了一些很酷的新功能,包括 light-dark() 颜色函数。此功能可让您为任何元素指定两种颜色 &#8211…

    2025年12月24日
    100

发表回复

登录后才能评论
关注微信