Python如何读取csv文件_Python读取csv文件方法总结

程序猿 • 2025年12月14日 09:18:22 • 用户投稿 • 阅读 0

使用csv模块和pandas是Python读取CSV文件最常用的方法；csv适合基础逐行处理，pandas则擅长高效的数据分析与大规模操作，结合二者可应对绝大多数场景。

Python读取CSV文件，最常用且高效的方式莫过于使用内置的

csv

模块，它提供了基础而强大的解析能力，尤其适合处理结构相对简单或需要逐行处理的场景；而对于数据分析和大规模数据操作，

pandas

库则是不可或缺的利器，它将数据处理提升到了一个新的维度，让复杂的数据任务变得异常简洁。在我看来，掌握这两者，基本上就能应对Python中绝大多数CSV文件的读取需求了。

解决方案

说实话，处理CSV文件在日常工作中是再常见不过的任务了。我们来聊聊Python里那些真正好用的方法。

1. 使用Python内置的

csv

模块：基础而强大

csv

模块是Python标准库的一部分，这意味着你无需安装任何额外的东西就能使用它。它非常适合处理那些结构规整，或者你需要对每一行数据进行细致控制的场景。

立即学习“Python免费学习笔记（深入）”；

基本读取：

csv.reader

这是最直接的方式，它会返回一个迭代器，每次迭代得到一行数据，通常是一个列表。

import csv# 假设我们有一个名为 'data.csv' 的文件# 内容可能是：# Name,Age,City# Alice,30,New York# Bob,24,Londontry:    with open('data.csv', 'r', encoding='utf-8') as f:        reader = csv.reader(f)        # 跳过标题行，如果你不想要的话        header = next(reader)        print(f"文件头: {header}")        for row in reader:            print(row)except FileNotFoundError:    print("data.csv 文件不存在，请确保文件在当前目录下。")except Exception as e:    print(f"读取文件时发生错误: {e}")

这里

encoding='utf-8'

非常关键，后面我们会详细聊到编码问题。如果你的CSV文件使用分号作为分隔符，可以这样指定：

reader = csv.reader(f, delimiter=';')

。

字典方式读取：

csv.DictReader

我个人更偏爱

DictReader

，因为它能将每一行数据直接映射成字典，以列名作为键。这样在访问数据时，你就不需要记住列的索引了，直接用列名访问，代码可读性会大大提高。

import csvtry:    with open('data.csv', 'r', encoding='utf-8') as f:        reader = csv.DictReader(f)        for row in reader:            # 假设CSV文件有'Name'和'Age'列            print(f"姓名: {row['Name']}, 年龄: {row['Age']}")except FileNotFoundError:    print("data.csv 文件不存在。")except KeyError as e:    print(f"字典键错误，可能CSV文件缺少列名：{e}")except Exception as e:    print(f"读取文件时发生错误: {e}")

是不是感觉方便多了？当CSV文件没有标题行时，你可以通过

fieldnames

参数手动指定列名。

2. 使用

pandas

库：数据分析的利器

如果你的目标是数据分析、清洗、转换，或者处理的数据量较大，那么

pandas

绝对是你的首选。它构建在

NumPy

之上，提供了高性能的数据结构（主要是

DataFrame

），让数据处理变得异常高效和直观。

核心函数：

pd.read_csv()

pandas

的

read_csv()

函数功能异常强大，几乎可以应对各种复杂的CSV读取场景。

import pandas as pdtry:    # 默认情况下，read_csv()会尝试识别分隔符，并假设第一行为标题    df = pd.read_csv('data.csv', encoding='utf-8')    print("使用pandas读取的数据框：")    print(df.head()) # 打印前几行数据    print("n数据框信息：")    df.info() # 查看数据类型和非空值数量except FileNotFoundError:    print("data.csv 文件不存在。")except Exception as e:    print(f"使用pandas读取文件时发生错误: {e}")

pd.read_csv()

的常用参数：

read_csv()

的强大之处在于它的各种参数，能让你精细控制读取过程：

sep

(或

delimiter

): 指定分隔符，比如

sep=';'

。

header

: 指定哪一行作为列名。

header=None

表示没有标题行，

header=0

（默认）表示第一行是标题。

names

: 当没有标题行时，手动指定列名列表。

index_col

: 指定哪一列作为DataFrame的索引。

dtype

: 明确指定某些列的数据类型，可以节省内存并避免类型推断错误。

encoding

: 指定文件编码，这是个大坑，我们后面会细说。

skiprows

: 跳过文件开头的指定行数。

nrows

: 只读取文件的前N行。

chunksize

: 对于超大文件，可以分块读取，避免一次性加载到内存。

parse_dates

: 尝试将某些列解析为日期时间类型。

一个综合示例：

import pandas as pd# 假设有一个文件 'complex_data.csv'# 前两行是注释，第三行是标题，分隔符是制表符，日期列需要解析# # This is a comment# # Another comment# IDtNametBirthdaytValue# 1tAlicet1990-01-15t100.5# 2tBobt1985-03-20t200.0try:    df_complex = pd.read_csv('complex_data.csv',                             sep='t', # 指定制表符为分隔符                             skiprows=[0, 1], # 跳过前两行注释                             parse_dates=['Birthday'], # 将Birthday列解析为日期                             encoding='utf-8')    print("n使用更多参数读取的数据框：")    print(df_complex.head())    print("n解析后的数据类型：")    print(df_complex.dtypes)except FileNotFoundError:    print("complex_data.csv 文件不存在。")except Exception as e:    print(f"读取复杂文件时发生错误: {e}")

Python读取CSV文件时，最让人头疼的编码问题该如何应对？

在我多年的数据处理经验里，编码问题绝对是新手甚至老手都会频繁踩坑的地方。你经常会看到

UnicodeDecodeError

这样的报错，让人抓狂。这通常意味着你告诉Python用A编码去解读一个实际是B编码的文件。

为什么会发生编码问题？简单来说，不同的操作系统、不同的文本编辑器，甚至不同的国家，在保存文本文件时可能会使用不同的字符编码标准。比如，Windows系统下中文环境默认可能是

gbk

或

gb2312

，而Linux或Mac系统，以及网络传输，则更倾向于

utf-8

。当Python尝试以错误的编码方式读取文件时，它就无法正确地将字节序列转换成可识别的字符，于是就报错了。

如何诊断和解决？

首选

utf-8

：经验告诉我，

utf-8

是目前最通用、兼容性最好的编码。所以，无论是使用

csv

模块还是

pandas

，我都会首先尝试

encoding='utf-8'

。

# csv 模块with open('file.csv', 'r', encoding='utf-8') as f:    # ...# pandasdf = pd.read_csv('file.csv', encoding='utf-8')

尝试其他常见编码：

gbk

/

gb2312

/

latin-1

/

iso-8859-1

如果

utf-8

不行，尤其是处理来自国内Windows环境的文件，那么

gbk

或

gb2312

是很可能正确的选择。

latin-1

或

iso-8859-1

则是一种更宽松的编码，它能读取几乎所有字节，但对于非拉丁字符（如中文）可能会导致乱码，不过至少能保证文件能被打开，你再手动处理乱码列。

# 尝试 gbktry:    df = pd.read_csv('file.csv', encoding='gbk')except UnicodeDecodeError:    print("gbk 编码失败，尝试其他编码...")    # 尝试 latin-1    try:        df = pd.read_csv('file.csv', encoding='latin-1')    except Exception as e:        print(f"所有尝试都失败了: {e}")

利用

chardet

库自动检测编码：当你实在不确定文件的编码时，

chardet

库可以派上用场。它会尝试猜测文件的编码。不过，请注意，

chardet

不是100%准确，尤其是在文件较小或内容不够多样时，但它能提供一个很好的起点。

import chardetimport pandas as pddef detect_encoding(file_path, num_bytes=10000):    """尝试检测文件的编码"""    with open(file_path, 'rb') as f: # 以二进制模式读取        raw_data = f.read(num_bytes) # 读取前N个字节    result = chardet.detect(raw_data)    return result['encoding']file_path = 'unknown_encoding.csv'detected_enc = detect_encoding(file_path)print(f"检测到的编码是: {detected_enc}")if detected_enc:    try:        df = pd.read_csv(file_path, encoding=detected_enc)        print("成功以检测到的编码读取文件。")    except Exception as e:        print(f"使用检测到的编码 {detected_enc} 失败: {e}")        # fallback to manual tries if detection failselse:    print("未能检测到编码，请手动尝试。")

这是一个很实用的技巧，能帮你省下不少猜测的时间。

errors

参数（慎用）：在

open()

函数或

pd.read_csv()

中，你可以使用

errors='ignore'

或

errors='replace'

来处理编码错误。

ignore

会忽略无法解码的字符，

replace

会用一个占位符替换它们。但这会丢失数据，通常只在数据质量要求不高或需要快速查看文件内容时使用。

# 忽略编码错误，但数据可能不完整或乱码df = pd.read_csv('file.csv', encoding='utf-8', errors='ignore')

总的来说，处理编码问题需要耐心和一点点试错。从

utf-8

开始，不行就尝试

gbk

，实在不行再借助

chardet

，最后才考虑

latin-1

或忽略错误。

读取CSV后，如何快速对数据进行初步的清洗和预处理？

数据读取进来只是第一步，真正有价值的工作往往从数据清洗和预处理开始。

pandas

在这方面简直是神一样的存在，它提供了一整套高效且直观的工具。

查看数据概览：

df.info()

和

df.head()

/

df.tail()

这是我每次拿到新数据后的第一步。

df.info()

会告诉你每列的数据类型、非空值的数量以及内存占用，这对于了解数据质量至关重要。

df.head()

和

df.tail()

则能让你快速预览数据的前几行和后几行，有个直观的印象。

# 假设 df 已经是一个 DataFrameprint("数据框信息概览:")df.info()print("n数据框前5行:")print(df.head())

处理缺失值：

isnull()

/

dropna()

/

fillna()

缺失值是数据清洗的常客。

df.isnull().sum()

：统计每列的缺失值数量。

df.dropna()

：删除含有缺失值的行或列（

axis=1

）。

df.fillna(value)

：用指定的值（如均值、中位数、众数或特定字符串）填充缺失值。

# 检查缺失值print("n每列的缺失值数量:")print(df.isnull().sum())# 删除所有含有缺失值的行df_cleaned = df.dropna()print(f"n删除缺失值后的行数: {len(df_cleaned)}")# 用平均值填充某一列的缺失值# 假设 'Age' 列有缺失值，且是数值类型if 'Age' in df.columns and pd.api.types.is_numeric_dtype(df['Age']):    df['Age'].fillna(df['Age'].mean(), inplace=True)    print("n'Age'列缺失值已用均值填充。")

处理重复值：

duplicated()

/

drop_duplicates()

重复行会干扰分析结果。

df.duplicated().sum()

：统计重复行的数量。

df.drop_duplicates()

：删除重复行。你可以指定

subset

参数来基于特定列判断重复。

print(f"n重复行数量: {df.duplicated().sum()}")df_unique = df.drop_duplicates()print(f"删除重复行后的行数: {len(df_unique)}")

列名标准化：

rename()

有时候列名可能不规范，包含特殊字符或空格。统一列名是一个好习惯。

# 假设有一列名为 'User Name'，我们想改成 'UserName'if 'User Name' in df.columns:    df.rename(columns={'User Name': 'UserName'}, inplace=True)    print("n列名 'User Name' 已重命名为 'UserName'。")

数据类型转换：

astype()

/

pd.to_datetime()

/

pd.to_numeric()

df.info()

中看到的数据类型可能不总是你想要的。比如，数字列被读成了字符串，或者日期被当成了对象。

df['column'].astype(int)

：将列转换为整数。

以上就是Python如何读取csv文件_Python读取csv文件方法总结的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1369039.html

ai csv文件 linux mac python win windows windows系统内存占用工具操作系统

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

python怎么字符串拼接_python多种字符串连接方式

上一篇 2025年12月14日 09:18:11

Python函数设计：避免循环引用与提升模块化

下一篇 2025年12月14日 09:18:30

用户投稿

composer require-dev和require有什么不同_Composer Require与Require-Dev区别解析

require用于声明项目运行必需的依赖，如框架、数据库组件和第三方SDK，这些包会随项目部署到生产环境；2. require-dev用于声明仅在开发和测试阶段需要的工具，如PHPUnit、PHPStan、Faker等，不会默认部署到生产环境；3. 安装时composer install根据环境决定…

程序猿
2026年5月10日
10000
Matplotlib 地图中多类型图例的创建与优化

本教程旨在解决matplotlib地图可视化中，如何在一个图例中同时展示颜色块（如区域分类）和自定义标记（如特定兴趣点）的问题。文章详细介绍了当传统`patch`对象无法正确显示标记时，如何利用`matplotlib.lines.line2d`创建标记图例句柄，并将其与颜色块图例句柄合并，从而生成一…

程序猿
2026年5月10日 • 用户投稿
1000
用户投稿

Golang JSON序列化：控制敏感字段暴露的最佳实践

本教程探讨golang中如何高效控制结构体字段在json序列化时的可见性。当需要将包含敏感信息的结构体数组转换为json响应时，通过利用`encoding/json`包提供的结构体标签，特别是`json:”-“`，可以轻松实现对特定字段的忽略，从而避免敏感数据泄露，确保api…

程序猿
2026年5月10日
0000
用户投稿

利用海象运算符简化条件赋值：Python教程与最佳实践

本文旨在探讨Python中海象运算符（:=）在条件赋值场景下的应用。通过对比传统if/else语句与海象运算符，以及条件表达式，分析海象运算符在简化代码、提高可读性方面的优势与局限性。并通过具体示例，展示如何在列表推导式等场景下合理使用海象运算符，同时强调其潜在的复杂性及替代方案，帮助开发者更好地掌…

程序猿
2026年5月10日
1000
用户投稿

Debian syslog性能优化技巧有哪些

提升Debian系统syslog (通常基于rsyslog)性能，关键在于精简配置和高效处理日志。以下策略能有效优化日志管理，提升系统整体性能：精简配置，高效加载: 在rsyslog配置文件中，仅加载必要的输入、输出和解析模块。使用全局指令设置日志级别和格式，避免不必要的处理。自定义模板: 创…

程序猿
2026年5月10日
0000
用户投稿

怎么在PHP代码中实现图片上传功能_PHP图片上传功能实现与安全处理教程

首先创建含enctype的HTML表单，再用PHP接收文件，检查目录、移动临时文件，验证类型与大小，生成唯一文件名，并调整php.ini限制以确保上传成功。如果您尝试在PHP项目中添加图片上传功能，但服务器无法正确接收或保存文件，则可能是由于表单配置、文件处理逻辑或安全限制的问题。以下是实现该功能…

程序猿
2026年5月10日
1000
用户投稿

比特币新手教程比特币交易平台有哪些

比特币是一种去中心化的数字货币，基于区块链技术实现点对点交易，具有匿名性、有限发行和不可篡改等特点；新手可通过交易所购买，P2P交易获得比特币，常用平台包括Binance、OKX和Huobi；交易流程包括注册账户、实名认证、绑定支付方式、充值法币并下单购买，可选择市价单或限价单；比特币存储方式有交易…

程序猿
2026年5月10日
0000
用户投稿

c++中的SFINAE技术是什么_c++模板编程中的SFINAE原理与应用

SFINAE 是“替换失败不是错误”的原则，指模板实例化时若参数替换导致错误，只要存在其他合法候选，编译器不报错而是继续重载决议。它用于条件启用模板、类型检测等场景，如通过 decltype 或 enable_if 控制函数重载，实现类型特征判断。尽管 C++20 引入 Concepts 简化了部分…

程序猿
2026年5月10日
0000
用户投稿

Go语言mgo查询构建：深入理解bson.M与日期范围查询的正确实践

本文旨在解决go语言mgo库中构建复杂查询时，特别是涉及嵌套`bson.m`和日期范围筛选的常见错误。我们将深入剖析`bson.m`的类型特性，解释为何直接索引`interface{}`会导致“invalid operation”错误，并提供一种推荐的、结构清晰的代码重构方案，以确保查询条件能够正确…

程序猿
2026年5月10日
1000
用户投稿

RichHandler与Rich Progress集成：解决显示冲突的教程

在使用rich库的`richhandler`进行日志输出并同时使用`progress`组件时，可能会遇到显示错乱或溢出问题。这通常是由于为`richhandler`和`progress`分别创建了独立的`console`实例导致的。解决方案是确保日志处理器和进度条组件共享同一个`console`实例…

程序猿
2026年5月10日
0000
用户投稿

修复点击时按钮抖动：CSS垂直对齐实践

本文探讨了在Web开发中，交互式按钮（如播放/暂停按钮）在点击时发生意外垂直位移的问题。通过分析CSS样式变化对元素布局的影响，我们发现这是由于按钮不同状态下的边框样式和内边距改变，以及默认的垂直对齐行为共同作用所致。核心解决方案是利用CSS的vertical-align属性，将其设置为middle…

程序猿
2026年5月10日
1000
用户投稿

Golang goroutine与channel调试技巧

使用go run -race检测数据竞争，结合runtime.NumGoroutine监控协程数量，通过pprof分析阻塞调用栈，利用select超时避免永久阻塞，有效排查goroutine泄漏、死锁和数据竞争问题。 Go语言的goroutine和channel是并发编程的核心，但它们也带来了调试上…

程序猿
2026年5月10日
0000
《魔兽世界》将于6月11日开启国服回归技术测试

《%ign%ignore_a_1%re_a_1%》官方宣布，将于6月11日开启国服回归技术测试，时间为7天，并称可以在6月内正式开服，玩家们可以访问官网下载战网客户端并预下载“巫妖王之怒”客户端，技术测试详情见下图。 WordAi WordAI是一个AI驱动的内容重写平台 53 查看详情以上就是《…

程序猿
2026年5月10日 • 用户投稿
2000
用户投稿

使用 Jupyter Notebook 进行探索性数据分析

Jupyter Notebook通过单元格实现代码与Markdown结合，支持数据导入（pandas）、清洗（fillna）、探索（matplotlib/seaborn可视化）、统计分析（describe/corr）和特征工程，便于记录与分享分析过程。 Jupyter Notebook 是进行探索性…

程序猿
2026年5月10日
0000
用户投稿

如何在HTML中插入表单元素_HTML表单控件与输入类型使用指南

HTML表单通过标签构建，包含action和method属性定义数据提交目标与方式，常用input类型如text、password、email等适配不同输入需求，配合label、required、placeholder提升可用性，结合textarea、select、button等控件实现完整交互，是…

程序猿
2026年5月10日
1000
用户投稿

网站标题关键词更新后，搜索引擎为何仍显示旧标题？

网站标题更新后，搜索引擎为何显示旧标题？网站SEO优化中，站长常修改网站标题关键词，期望搜索结果显示自定义标题。然而，即使更新标签、meta keywords、meta description和结构化数据中的name属性后，搜索结果仍显示旧标题，这令人费解。本文将对此进行解释。问题：站长修改了网…

程序猿
2026年5月10日
1000
用户投稿

创建指定大小并填充特定数据的Golang文件教程

本文将介绍如何使用Golang创建一个指定大小的文件，并用特定数据填充它。我们将使用 `os` 包提供的函数来创建和截断文件，从而实现快速生成大文件的目的。示例代码展示了如何创建一个10MB的文件，并将其填充为全零数据。掌握这些方法，可以方便地在例如日志系统或磁盘队列等场景中，预先创建测试文件或初始…

程序猿
2026年5月10日
0000
用户投稿

Python命令怎样使用profile分析脚本性能 Python命令性能分析的基础教程

使用Python的cProfile模块分析脚本性能最直接的方式是通过命令行执行python -m cProfile your_script.py，它会输出每个函数的调用次数、总耗时、累积耗时等关键指标，帮助定位性能瓶颈；为进一步分析，可将结果保存为文件python -m cProfile -o ou…

程序猿
2026年5月10日
0000
用户投稿

使用 WebCodecs VideoDecoder 实现精确逐帧回退

本文档旨在解决在使用 WebCodecs VideoDecoder 进行视频解码时，实现精确逐帧回退的问题。通过比较帧的时间戳与目标帧的时间戳，可以避免渲染中间帧，从而提高用户体验。本文将提供详细的解决方案和示例代码，帮助开发者实现精确的视频帧控制。在使用 WebCodecs VideoDecod…

程序猿
2026年5月10日
0000
如何插入查询结果数据_SQL插入Select查询结果方法

使用INSERT INTO…SELECT语句可高效插入数据，通过NOT EXISTS、LEFT JOIN、MERGE语句或唯一约束避免重复；表结构不一致时可通过别名、类型转换、默认值或计算字段处理；结合存储过程可提升可维护性，支持参数化与动态SQL。将查询结果数据插入到另一个表中，可以…

程序猿
2026年5月10日 • 用户投稿
0000