Python怎么读取CSV文件_Python CSV文件读取方法详解

Python读取CSV文件主要有两种方式:使用内置csv模块适合简单逐行处理,内存占用低;而pandas的read_csv()则将数据直接加载为DataFrame,便于数据分析。csv.reader按列表形式读取,适用于已知列顺序的场景;csv.DictReader以字典形式读取,通过列名访问更直观。pandas优势在于数据清洗、类型推断、缺失值处理及高性能操作,支持chunksize分块读取大型文件,usecols和dtype优化内存,同时可处理编码问题(如utf-8、gbk)和自定义分隔符,适应非标准格式。

python怎么读取csv文件_python csv文件读取方法详解

Python读取CSV文件主要有两种主流且高效的方式:一是利用Python内置的

csv

模块,它提供了基础且灵活的CSV文件处理能力,适合逐行或按字典格式读取;二是借助强大的第三方库

pandas

,特别是其

read_csv()

函数,它能将CSV数据直接加载为DataFrame,极大简化了数据清洗、分析和操作的流程,对于数据科学和大数据处理场景几乎是标配。选择哪种方法,往往取决于你的具体需求和对数据处理复杂度的预期。

解决方案

在Python中处理CSV文件,我们通常会根据需求选择不同的工具。如果只是简单地遍历数据,或者对内存占用有严格要求,内置的

csv

模块是个不错的选择。而如果需要进行复杂的数据分析、清洗或与数据库交互,

pandas

库无疑是更高效、功能更强大的方案。

使用Python内置的

csv

模块

csv

模块提供了两种主要的读取方式:

csv.reader

csv.DictReader

立即学习“Python免费学习笔记(深入)”;

csv.reader

:按行和字段读取这种方式会将CSV文件的每一行视为一个列表,列表中的每个元素对应一个字段。这很直接,适合那些你已经知道列顺序,或者只是想快速迭代所有数据的场景。

import csvfile_path = 'data.csv' # 假设有一个名为data.csv的文件try:    with open(file_path, mode='r', encoding='utf-8') as file:        reader = csv.reader(file)        header = next(reader) # 通常第一行是标题        print(f"文件头部: {header}")        for row in reader:            print(row)            # 假设我们想处理每一行的数据,比如计算某个字段的和            # if len(row) > 1 and row[1].isdigit(): # 简单检查,避免索引错误和非数字数据            #     print(f"第二个字段的值: {row[1]}")except FileNotFoundError:    print(f"错误:文件 '{file_path}' 未找到。")except Exception as e:    print(f"读取文件时发生错误: {e}")

这里需要注意

encoding

参数,它在处理不同编码的CSV文件时至关重要,特别是Windows系统下常见的

gbk

cp936

。如果文件不存在,或者编码不对,程序会报错,所以加上

try-except

块是好习惯。

csv.DictReader

:按字典格式读取

DictReader

会把CSV文件的第一行(通常是标题行)作为字典的键,后续每一行数据则作为字典的值。这种方式非常方便,因为它允许你通过列名直接访问数据,而不用关心列的索引,大大提高了代码的可读性和健壮性。

import csvfile_path = 'data.csv'try:    with open(file_path, mode='r', encoding='utf-8') as file:        reader = csv.DictReader(file)        for row in reader:            print(row)            # 你可以直接通过列名访问数据,比如            # if '姓名' in row:            #     print(f"姓名: {row['姓名']}")            # if '年龄' in row and row['年龄'].isdigit():            #     print(f"年龄: {row['年龄']}")except FileNotFoundError:    print(f"错误:文件 '{file_path}' 未找到。")except Exception as e:    print(f"读取文件时发生错误: {e}")

在我看来,

DictReader

在很多情况下比

reader

更实用,特别是当CSV文件的列顺序可能变化,或者列名比索引更有意义时。

使用

pandas

库读取CSV文件

pandas

是Python数据科学领域的核心库,它提供了一个高性能、易于使用的数据结构DataFrame,非常适合处理表格数据。读取CSV文件到DataFrame是它的基本功能之一。

import pandas as pdfile_path = 'data.csv'try:    df = pd.read_csv(file_path, encoding='utf-8')    print("成功读取CSV文件,前5行数据如下:")    print(df.head())    print("n数据框信息:")    df.info()    # 还可以直接访问列    # print(df['姓名'])except FileNotFoundError:    print(f"错误:文件 '{file_path}' 未找到。")except pd.errors.EmptyDataError:    print(f"错误:文件 '{file_path}' 是空的或不包含数据。")except Exception as e:    print(f"读取文件时发生错误: {e}")
pd.read_csv()

函数功能非常强大,参数众多,可以处理各种复杂的CSV文件格式,比如指定分隔符、跳过行、处理缺失值、指定数据类型等等。这使得它在处理真实世界中那些“不那么标准”的CSV文件时,显得游刃有余。

Python内置的

csv

模块有哪些常用方法,分别适用于什么场景?

Python内置的

csv

模块主要提供了

csv.reader

csv.DictReader

这两个核心类来读取CSV文件,它们各有侧重,适用于不同的场景。

1.

csv.reader

:基础的行迭代器

工作原理:

csv.reader

对象是一个迭代器,每次迭代返回CSV文件中的一行数据,以列表(list)的形式呈现。列表中的每个元素对应CSV文件中的一个字段。常用参数:

delimiter

:指定字段之间的分隔符,默认为逗号

,

。如果你的CSV文件使用分号

;

或制表符

t

分隔,就需要明确指定。

quotechar

:指定引用字符,默认为双引号

"

。当字段内容包含分隔符时,通常会用引用字符包围。

skipinitialspace

:如果为

True

,在分隔符后会忽略空格。适用场景:快速遍历所有数据: 当你不需要通过列名访问数据,只想简单地逐行处理,比如统计行数、简单的数据清洗或转换。内存敏感型应用: 由于它一次只读取一行数据,对于非常大的CSV文件,

csv.reader

比一次性加载所有数据到内存(如

pandas

)更节省内存。自定义解析逻辑: 当CSV文件的结构非常规,需要你手动解析每个字段时,

csv.reader

提供了最原始的数据访问方式。处理没有标题行的CSV: 如果CSV文件没有明确的标题行,

csv.reader

就显得很自然,因为你本来就需要通过索引来访问数据。

示例(处理非标准分隔符):

import csv# 假设文件data_semicolon.csv内容是:# Name;Age;City# Alice;30;New York# Bob;24;Londonfile_path = 'data_semicolon.csv'try:    with open(file_path, mode='r', encoding='utf-8') as file:        reader = csv.reader(file, delimiter=';') # 指定分号作为分隔符        header = next(reader)        print(f"头部(分号分隔): {header}")        for row in reader:            print(f"数据行: {row}")except FileNotFoundError:    print(f"文件 '{file_path}' 未找到。")except Exception as e:    print(f"读取文件时发生错误: {e}")

2.

csv.DictReader

:字典形式的行迭代器

工作原理:

csv.DictReader

也返回一个迭代器,但每次迭代返回的是一个字典(dict)。这个字典的键(keys)默认取自CSV文件的第一行(通常是标题行),值(values)则是当前行对应字段的数据。常用参数:

fieldnames

:如果你想手动指定字段名,而不是使用CSV文件的第一行作为标题,可以传入一个列表。其他参数如

delimiter

quotechar

等与

csv.reader

相同。适用场景:通过列名访问数据: 这是

DictReader

最大的优势。当CSV文件的列顺序可能变化,或者列的含义比其索引更重要时,通过列名访问数据能让代码更清晰、更不容易出错。数据清洗和转换: 当你需要根据特定列的值进行条件判断、计算或修改时,

DictReader

的字典访问方式非常直观。与数据库或API交互: 如果你的数据最终要导入数据库或通过API发送,而这些系统通常都使用字段名来标识数据,那么

DictReader

能更好地匹配这种需求。处理有明确标题行的CSV: 对于大多数结构化的CSV文件,第一行就是标题,

DictReader

能自动识别并利用这些标题。

示例(指定

fieldnames

):

import csv# 假设文件data_no_header.csv内容是:# Alice,30,New York# Bob,24,Londonfile_path = 'data_no_header.csv'# 如果文件没有头部,但我们知道列的含义column_names = ['姓名', '年龄', '城市']try:    with open(file_path, mode='r', encoding='utf-8') as file:        reader = csv.DictReader(file, fieldnames=column_names)        # 如果有实际的头部行,但我们想跳过它并使用自定义的fieldnames        # next(reader) # 如果文件有头部但我们不想用,就跳过它        for row in reader:            print(f"姓名: {row['姓名']}, 年龄: {row['年龄']}, 城市: {row['城市']}")except FileNotFoundError:    print(f"文件 '{file_path}' 未找到。")except Exception as e:    print(f"读取文件时发生错误: {e}")

总的来说,

csv

模块提供了对CSV文件进行精细控制的能力,尤其在资源受限或需要自定义解析逻辑的场景下表现出色。但在面对大量数据分析任务时,它往往需要更多的手动编码来完成数据类型转换、缺失值处理等,这时

pandas

的优势就凸显出来了。

Whimsical

Whimsical

Whimsical推出的AI思维导图工具

Whimsical 182

查看详情 Whimsical

使用

pandas

库读取CSV文件相比

csv

模块有哪些显著优势?如何处理大型CSV文件?

pandas

库在数据处理领域几乎是无处不在,尤其在读取CSV文件方面,它相比Python内置的

csv

模块,提供了压倒性的优势,特别是在处理大型文件和进行复杂数据分析时。

pandas

库读取CSV文件的显著优势:

数据结构化和可视化:DataFrame:

pandas

将CSV数据直接加载到一个名为DataFrame的二维表格结构中。DataFrame类似于电子表格或SQL表,具有行和列标签,非常直观。这使得数据查看、切片、筛选和聚合操作变得异常简单。而

csv

模块每次只处理一行,你需要自己构建数据结构。数据概览:

df.head()

,

df.info()

,

df.describe()

等函数能让你迅速了解数据的结构、类型、缺失值和统计摘要,这在数据探索阶段是极其宝贵的。强大的数据清洗和预处理功能:缺失值处理:

pd.read_csv()

可以直接在读取时处理缺失值(

na_values

参数),读取后DataFrame也提供了

dropna()

,

fillna()

等方法,处理缺失值非常方便。

csv

模块需要手动判断和处理。数据类型推断与转换:

pandas

能智能地推断列的数据类型(整数、浮点数、字符串、日期等),并提供强大的类型转换功能(

astype()

)。

csv

模块读取的所有数据都是字符串,需要手动转换。日期时间解析:

parse_dates

参数能自动将指定列解析为日期时间对象,方便后续的时间序列分析。

csv

模块需要手动使用

datetime

模块进行解析。重复值处理:

drop_duplicates()

能轻松识别和删除重复行。高性能:

pandas

底层是基于NumPy和C语言实现的,对于大规模数据操作,其性能通常远超纯Python循环处理。读取大型CSV文件时,

pd.read_csv()

通常比

csv

模块快得多。丰富的数据操作和分析API:数据筛选与查询: 基于条件、列名或索引进行数据筛选非常灵活。分组与聚合:

groupby()

配合聚合函数(

sum()

,

mean()

,

count()

等)可以轻松实现复杂的数据汇总。合并与连接:

merge()

,

join()

,

concat()

等函数可以方便地将多个DataFrame组合起来。统计分析: 内置了大量的统计函数和方法。易用性和代码简洁性:许多在

csv

模块中需要多行代码才能完成的操作,在

pandas

中可能只需要一行。这大大提高了开发效率和代码的可读性。

如何处理大型CSV文件?

当CSV文件大到无法一次性完全加载到内存时,

pandas

也提供了一些非常有效的策略:

chunksize

参数:分块读取这是处理大型CSV文件最常用的方法。

chunksize

参数让

read_csv()

返回一个迭代器,每次迭代返回一个指定大小的DataFrame块。这样,你就可以逐块处理数据,而无需将整个文件加载到内存。

import pandas as pdfile_path = 'large_data.csv' # 假设这是一个非常大的CSV文件chunk_size = 100000 # 每次读取10万行total_rows_processed = 0# 假设我们想计算某个列的总和total_value_sum = 0try:    for chunk in pd.read_csv(file_path, chunksize=chunk_size, encoding='utf-8'):        total_rows_processed += len(chunk)        # 在这里对每个chunk进行处理,例如:        if '数值列' in chunk.columns:            total_value_sum += chunk['数值列'].sum()        print(f"已处理 {total_rows_processed} 行数据...")    print(f"所有数据处理完毕。总行数: {total_rows_processed}, 数值列总和: {total_value_sum}")except FileNotFoundError:    print(f"错误:文件 '{file_path}' 未找到。")except Exception as e:    print(f"处理大型文件时发生错误: {e}")

这种方式的缺点是,如果你需要全局性的操作(比如排序整个文件),分块处理会比较复杂。

nrows

参数:读取指定行数如果你只需要文件的前N行进行测试或预览,

nrows

参数非常有用。

import pandas as pddf_preview = pd.read_csv('large_data.csv', nrows=1000, encoding='utf-8')print(f"已读取前1000行数据,数据框形状: {df_preview.shape}")

usecols

参数:只读取需要的列如果CSV文件有很多列,但你只需要其中的几列,使用

usecols

参数可以显著减少内存占用。

import pandas as pddf_selected = pd.read_csv('large_data.csv', usecols=['ID', '姓名', '年龄'], encoding='utf-8')print(f"只读取了指定列,数据框形状: {df_selected.shape}")

dtype

参数:指定数据类型

pandas

在读取时会尝试推断每列的最佳数据类型,但这有时会导致使用比实际需要更大的内存(例如,将整数列推断为浮点数)。通过

dtype

参数明确指定每列的数据类型,可以有效优化内存使用。

import pandas as pddf_optimized = pd.read_csv('large_data.csv', dtype={'ID': 'int32', '年龄': 'int16', '姓名': 'string'}, encoding='utf-8')df_optimized.info(memory_usage='deep') # 查看内存使用情况

尤其是对于整数和字符串列,使用更小的整数类型(如

int8

,

int16

,

int32

)或

'category'

类型(对于重复值较多的字符串)可以大幅节省内存。

skiprows

参数:跳过不需要的行如果文件开头有元数据或无效行,可以使用

skiprows

跳过它们。

结合这些策略,

pandas

在处理从小型到超大型的CSV文件时,都展现出了无与伦比的灵活性和效率。

读取CSV文件时,常见的编码问题和分隔符不一致如何解决?

在实际工作中,CSV文件往往不是那么“标准”,经常会遇到编码错误和分隔符不一致的问题。这些问题如果不妥善处理,会导致数据乱码、解析失败,甚至程序崩溃。

1. 编码问题(

UnicodeDecodeError

这是最常见也最令人头疼的问题之一。当程序尝试以错误的编码方式解码文件时,就会抛出

UnicodeDecodeError

问题表现:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x... in position ...: invalid start byte

读取到的中文或其他非ASCII字符显示为乱码(如

���

或问号)。

解决方案:

明确指定编码: 最直接有效的方法就是在打开文件时,通过

encoding

参数明确指定正确的编码。

对于

csv

模块:

import csvtry:    # 尝试 'utf-8'    with open('data.csv', mode='r', encoding='utf-8') as f:        reader = csv.reader(f)        # ... 处理数据except UnicodeDecodeError:    print("尝试UTF-8失败,尝试GBK...")    try:        # 尝试 'gbk' 或 'cp936' (Windows中文环境常用)        with open('data.csv', mode='r', encoding='gbk') as f:            reader = csv.reader(f)            # ... 处理数据    except UnicodeDecodeError:        print("尝试GBK也失败,尝试Latin-1...")        # 尝试 'latin-1' (有时用于包含各种非ASCII字符的文件)        with open('data.csv', mode='r', encoding='latin-1') as f:            reader = csv.reader(f)            # ... 处理数据except FileNotFoundError:    print("文件未找到。")

对于

pandas

import pandas as pdtry:    df = pd.read_csv('data.csv', encoding='utf-8')except UnicodeDecodeError:    print("尝试UTF-8失败,尝试GBK...")    try:        df = pd.read_csv('data.csv', encoding='gbk')    except UnicodeDecodeError:        print("尝试GBK也失败,尝试Latin-1...")        df = pd.read_csv('data.csv', encoding='latin-1')except FileNotFoundError:    print("文件未找到。")

猜测文件编码: 如果你不知道文件的确切编码,可以使用第三方库如

chardet

来猜测。这虽然不是100%准确,但在很多情况下能提供很好的线索。

# 首先安装:pip install chardetimport chardetdef detect_encoding(file_path):    with open(file_path, 'rb') as f: # 以二进制模式读取        raw_data = f.read(100000) # 读取文件的前100KB进行检测    result = chardet.detect(raw_data)    return result['encoding']file_

以上就是Python怎么读取CSV文件_Python CSV文件读取方法详解的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1371530.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 11:31:50
下一篇 2025年12月14日 11:32:05

相关推荐

发表回复

登录后才能评论
关注微信