Python怎么使用Pandas库_Pandas数据处理入门指南

Pandas数据清洗常用技巧包括处理缺失值、重复值、异常值、文本数据、日期时间及数据标准化。具体为:用dropna()或fillna()处理缺失值;drop_duplicates()去除重复数据;通过IQR或标准差识别异常值并合理处理;利用str方法清洗文本,如去空格、大小写转换;用to_datetime统一日期格式;结合业务需求进行数据归一化。同时需注意链式赋值警告、性能优化和内存管理等最佳实践。

python怎么使用pandas库_pandas数据处理入门指南

Pandas是Python数据科学领域的一把瑞士军刀,它提供了一系列高效的数据结构和数据分析工具,让你能轻松处理和分析表格型数据,就像在用一个超级强大的Excel。无论是数据清洗、转换、聚合还是探索性分析,Pandas都能提供直观且高性能的解决方案。

解决方案

要开始使用Pandas,第一步通常是导入它,约定俗成地使用

pd

作为别名。

import pandas as pdimport numpy as np # 经常和Pandas一起使用

1. 创建数据结构:DataFrame和Series

Pandas最核心的两个数据结构是DataFrame和Series。Series可以看作带标签的一维数组,而DataFrame则是一个二维的、表格型数据结构,每列可以有不同的数据类型。

立即学习“Python免费学习笔记(深入)”;

创建Series:

s = pd.Series([1, 3, 5, np.nan, 6, 8])print(s)# 输出:# 0    1.0# 1    3.0# 2    5.0# 3    NaN# 4    6.0# 5    8.0# dtype: float64

创建DataFrame,这通常是我们日常工作中打交道最多的。可以从字典、列表的列表,或者直接从CSV、Excel文件加载。

# 从字典创建DataFramedata = {    '姓名': ['张三', '李四', '王五', '赵六'],    '年龄': [25, 30, 28, 35],    '城市': ['北京', '上海', '广州', '深圳'],    '薪资': [8000, 12000, 9000, 15000]}df = pd.DataFrame(data)print(df)# 输出:#   姓名  年龄  城市    薪资# 0  张三  25  北京   8000# 1  李四  30  上海  12000# 2  王五  28  广州   9000# 3  赵六  35  深圳  15000

2. 从文件加载数据

真实世界的数据很少是手动输入的,更多是从文件读取。Pandas对多种文件格式提供了强大的支持。

# 读取CSV文件# df_csv = pd.read_csv('your_data.csv')# 读取Excel文件# df_excel = pd.read_excel('your_data.xlsx', sheet_name='Sheet1')# 读取JSON文件# df_json = pd.read_json('your_data.json')

通常,

pd.read_csv()

是最常用的函数,因为它能处理各种分隔符、编码问题。

3. 数据查看与初步探索

拿到数据后,第一件事是看看它长什么样。

print(df.head()) # 查看前5行print(df.tail(3)) # 查看后3行print(df.info()) # 查看数据概览,包括列名、非空值数量、数据类型print(df.describe()) # 对数值列进行统计描述,如均值、标准差、最大最小值等print(df.shape) # 查看行数和列数 (rows, columns)print(df.columns) # 查看所有列名

4. 数据选择与过滤

这是数据分析的基础操作,如何精准地取出你想要的数据。

选择单列或多列:

print(df['姓名']) # 选择单列,返回Seriesprint(df[['姓名', '薪资']]) # 选择多列,返回DataFrame

使用

loc

iloc

进行行和列的选择:

loc

:基于标签(列名、行索引)选择。

iloc

:基于整数位置选择。

print(df.loc[0]) # 选择第一行print(df.loc[0, '姓名']) # 选择第一行'姓名'列的值print(df.loc[0:2, ['姓名', '年龄']]) # 选择0到2行(包含2),'姓名'和'年龄'列print(df.iloc[0:3, 0:2]) # 选择前3行,前2列(基于位置)

条件过滤:

# 筛选年龄大于30的员工older_employees = df[df['年龄'] > 30]print(older_employees)# 筛选城市是上海且薪资高于10000的员工filtered_df = df[(df['城市'] == '上海') & (df['薪资'] > 10000)]print(filtered_df)

5. 数据清洗与处理

这是数据分析中最耗时也最关键的一步。

缺失值处理:

# 检查缺失值print(df.isnull().sum())# 删除含有缺失值的行# df_cleaned = df.dropna()# 填充缺失值# df_filled = df.fillna(value=0) # 用0填充所有缺失值# df['年龄'].fillna(df['年龄'].mean(), inplace=True) # 用年龄均值填充年龄列的缺失值

数据类型转换:

# 将某一列转换为特定类型# df['年龄'] = df['年龄'].astype(int)

重复值处理:

# 检查重复行# print(df.duplicated().sum())# 删除重复行# df_no_duplicates = df.drop_duplicates()

6. 数据聚合与分组

groupby()

是Pandas中最强大的功能之一,它允许你按照一个或多个列对数据进行分组,然后对每个组执行聚合操作(如求和、均值、计数等)。

# 按照城市分组,计算每个城市的平均薪资avg_salary_by_city = df.groupby('城市')['薪资'].mean()print(avg_salary_by_city)# 按照城市和年龄分组,计算每个组的薪资总和grouped_data = df.groupby(['城市', '年龄'])['薪资'].sum()print(grouped_data)# 可以同时应用多个聚合函数agg_data = df.groupby('城市')['薪资'].agg(['mean', 'max', 'min', 'count'])print(agg_data)

7. 数据合并与连接

当数据分散在多个DataFrame中时,你需要将它们合并起来。

df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': np.random.randn(4)})df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value2': np.random.randn(4)})# 内连接:只保留两个DataFrame中key都存在的行merged_df = pd.merge(df1, df2, on='key', how='inner')print(merged_df)# 左连接:保留左边DataFrame的所有行,匹配右边DataFrame的行left_merged_df = pd.merge(df1, df2, on='key', how='left')print(left_merged_df)# 拼接(Stacking):将多个DataFrame按行或列堆叠起来df3 = pd.DataFrame({'key': ['G', 'H'], 'value': np.random.randn(2)})concatenated_df = pd.concat([df1, df3], ignore_index=True)print(concatenated_df)

Pandas数据清洗的常用技巧有哪些?

数据清洗,这活儿说起来简单,做起来往往是整个项目最磨人的部分。我的经验是,没有哪个数据集是“干净”的,总有些奇奇怪怪的脏数据等着你去处理。Pandas在这方面提供了很多趁手的工具。

除了前面提到的缺失值、重复值处理,还有几个点我觉得特别重要:

异常值检测与处理: 异常值可能是数据录入错误,也可能代表了真实的特殊情况。识别它们是第一步。常用的方法有基于统计(如3倍标准差、IQR范围)或可视化(箱线图、散点图)。Pandas本身没有直接的异常值检测函数,但你可以结合其统计功能轻松实现。

# 假设我们想找出薪资的异常值Q1 = df['薪资'].quantile(0.25)Q3 = df['薪资'].quantile(0.75)IQR = Q3 - Q1lower_bound = Q1 - 1.5 * IQRupper_bound = Q3 + 1.5 * IQRoutliers = df[(df['薪资']  upper_bound)]print("薪资异常值:n", outliers)# 处理方式可以是删除、替换为均值/中位数,或者上限/下限值# df['薪资'] = np.where(df['薪资'] > upper_bound, upper_bound, df['薪资'])

处理异常值需要谨慎,有时它们是宝贵的信息,比如高价值客户或系统故障。

文本数据清洗: 字符串列往往是最混乱的。大小写不一致、多余空格、特殊字符、错别字……这些都得处理。Pandas的

str

访问器非常强大。

df['城市'] = df['城市'].str.strip() # 移除前后空格df['城市'] = df['城市'].str.lower() # 转换为小写df['姓名'] = df['姓名'].str.replace('张', 'ZHANG') # 替换字符# 使用正则表达式进行更复杂的匹配和替换# df['描述'] = df['描述'].str.replace(r'[^ws]', '', regex=True) # 移除所有非字母数字和空格的字符

这里面有个小坑,如果你的字符串列里有

NaN

,直接调用

str

方法会报错,需要先填充或过滤掉缺失值。

日期时间数据处理 日期时间格式不统一是常态。Pandas的

to_datetime

函数能智能地解析多种日期时间格式。

# df['日期'] = pd.to_datetime(df['日期'], errors='coerce') # errors='coerce'会将无法解析的日期转换为NaT(Not a Time)# 提取年份、月份、星期几等# df['年份'] = df['日期'].dt.year# df['月份'] = df['日期'].dt.month

处理日期时间时,时区问题也常常让人头疼,特别是在处理跨国数据时。Pandas提供了

tz_localize

tz_convert

来处理这些。

数据标准化/归一化: 在进行机器学习前,往往需要将不同量纲的数值特征进行缩放。虽然这通常在Pandas之外(如scikit-learn)完成,但Pandas是数据准备的平台。

# 简单的Min-Max标准化示例# df['薪资_normalized'] = (df['薪资'] - df['薪资'].min()) / (df['薪资'].max() - df['薪资'].min())

这些技巧,用得多了自然熟练,但每次遇到新数据,我还是会先花大量时间在清洗上,毕竟“垃圾进,垃圾出”是数据分析的铁律。

Pandas如何进行数据聚合和分组分析?

数据聚合和分组分析是Pandas的灵魂所在,它允许我们从宏观角度理解数据,而不是纠结于每一行。

groupby()

方法就是实现这一点的核心。

想象一下,你有一堆销售数据,你可能想知道每个产品类别的总销售额,或者每个地区的平均订单价值。这就是

groupby()

的用武之地。

基本流程是:Split-Apply-Combine

Split(拆分):根据一个或多个键(列)将DataFrame拆分成若干个组。Apply(应用):对每个组独立地应用一个函数(聚合、转换或过滤)。Combine(组合):将所有组的结果组合成一个新的DataFrame或Series。

最常见的应用是聚合函数:

# 假设我们有一个更复杂的销售数据sales_data = {    '产品类别': ['电子', '服装', '电子', '食品', '服装', '电子', '食品'],    '地区': ['华东', '华南', '华东', '华北', '华南', '华东', '华北'],    '销售额': [1200, 500, 1500, 300, 800, 1000, 450],    '订单数量': [10, 5, 12, 3, 8, 9, 4]}sales_df = pd.DataFrame(sales_data)print("原始销售数据:n", sales_df)# 按产品类别计算总销售额total_sales_by_category = sales_df.groupby('产品类别')['销售额'].sum()print("n按产品类别总销售额:n", total_sales_by_category)# 按地区计算平均订单数量avg_orders_by_region = sales_df.groupby('地区')['订单数量'].mean()print("n按地区平均订单数量:n", avg_orders_by_region)

更进一步,你可以同时对多个列应用不同的聚合函数,使用

agg()

方法:

# 按产品类别和地区分组,同时计算销售额的总和、平均值和订单数量的总和multi_agg = sales_df.groupby(['产品类别', '地区']).agg(    总销售额=('销售额', 'sum'),    平均销售额=('销售额', 'mean'),    总订单数量=('订单数量', 'sum'))print("n多重聚合结果:n", multi_agg)

这里我用了Python 3.6+的f-string风格的

agg

语法,它让输出的列名更清晰,我个人觉得比传入字典的旧方式更直观。

除了聚合,

groupby()

还可以用于转换(transform)过滤(filter)

transform:对每个组应用一个函数,但返回的结果与原始DataFrame的索引对齐,常用于填充组内缺失值或进行组内标准化。

# 计算每个产品类别销售额占该类别总销售额的比例sales_df['类别销售额占比'] = sales_df.groupby('产品类别')['销售额'].transform(lambda x: x / x.sum())print("n带类别销售额占比的数据:n", sales_df)

filter:根据组的某些特性来筛选组。

# 筛选出总销售额超过2000的产品类别filtered_categories = sales_df.groupby('产品类别').filter(lambda x: x['销售额'].sum() > 2000)print("n总销售额超过2000的产品类别数据:n", filtered_categories)

这些高级用法让

groupby()

变得极其灵活,能解决很多复杂的数据分析问题。我发现很多人刚开始用Pandas时,经常会尝试用循环来解决分组问题,但一旦掌握了

groupby()

,效率会提升好几个数量级。

Pandas在实际项目中常见的陷阱与最佳实践?

在实际项目中使用Pandas,我遇到过不少坑,也总结了一些经验。它确实强大,但用不好也容易“翻车”。

常见陷阱:

链式赋值警告(SettingWithCopyWarning): 这是新手最常遇到的问题之一。当你对一个DataFrame的“视图”进行修改时,Pandas会发出警告。

# 错误示例:可能引发SettingWithCopyWarning# df_subset = df[df['年龄'] > 30]# df_subset['薪资'] = df_subset['薪资'] * 1.1 # 这里的修改可能不会反映到原始df,也可能报错

最佳实践: 明确地使用

.loc

.copy()

。如果你想创建一个独立的DataFrame副本,就用

.copy()

;如果想在原始DataFrame上修改,且操作是基于条件选择的,就用

.loc

df_subset = df[df['年龄'] > 30].copy() # 明确复制一份df_subset['薪资'] = df_subset['薪资'] * 1.1# 在原始DataFrame上修改,使用.locdf.loc[df['年龄'] > 30, '薪资'] = df.loc[df['年龄'] > 30, '薪资'] * 1.1

这个坑我踩过好几次,导致数据修改没生效,或者莫名其妙的错误。

性能问题: 对大型数据集使用循环(

for

循环、

apply

配合lambda函数)往往效率低下。

# 性能差的示例:逐行处理# for index, row in df.iterrows():#     df.loc[index, '新列'] = row['列A'] + row['列B']

最佳实践: 尽可能使用Pandas的向量化操作。Pandas底层是C语言实现的,向量化操作能充分利用CPU的并行计算能力。

df['新列'] = df['列A'] + df['列B'] # 向量化操作

如果必须使用

apply

,尽量用在Series上,或者确保你的函数是高度优化的。对于非常复杂的操作,考虑使用

df.apply(..., axis=1)

,但要清楚这通常比向量化慢。更极致的性能需求,可以考虑

numba

modin

内存占用: 大数据集可能导致内存不足。特别是字符串和日期时间列,它们在Pandas中可能比你想象的更占用内存。最佳实践:

选择合适的数据类型: 对于整数或浮点数,使用

int8

,

int16

,

float32

等更小的类型。

df.info(memory_usage='deep')

可以查看详细内存占用。Categorical类型: 对于重复值较多的字符串列(如国家、城市),转换为

category

类型可以显著节省内存。

df['城市'] = df['城市'].astype('category')

分块读取: 对于超大型文件,使用

pd.read_csv(..., chunksize=...)

分块读取和处理数据。

索引管理不当: 索引是Pandas的强大之处,但如果处理不当,也可能导致问题,比如合并时索引不匹配。最佳实践:

在合并或拼接DataFrame时,明确指定

on

参数,或者在不需要索引时使用

reset_index()

。如果索引有实际意义(如时间序列),充分利用它进行时间序列操作。

这些陷阱,说到底都是对Pandas底层机制理解不够深入造成的。多实践,多看官方文档,你会发现Pandas的设计哲学非常精妙。它不是一个简单的工具库,而是一个强大的数据处理框架,值得我们花时间去深入学习。

以上就是Python怎么使用Pandas库_Pandas数据处理入门指南的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1368999.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 09:15:52
下一篇 2025年12月14日 09:16:06

相关推荐

  • 解决Python函数嵌套中的递归错误与UI计算逻辑优化

    本文旨在解决Python函数嵌套中因不当调用导致的RecursionError,特别是当一个函数在内部尝试重新调用其外部包装函数时。我们将通过代码重构,将独立的计算逻辑(如增值税、服务费和总计)解耦为独立的函数,并通过参数传递数据,从而避免无限递归,提高代码的可读性、可维护性和执行效率。 理解问题:…

    好文分享 2025年12月14日
    000
  • Python中数组如何操作 Python中数组操作教程

    Python中的“数组”主要指list和numpy.ndarray。list是内置的异构序列,支持多种数据类型和动态操作,适合小规模或非数值数据处理;而numpy.ndarray是同质多维数组,基于C实现,内存连续,支持高效数值运算和广播操作,适用于大规模科学计算。两者可通过np.array()和t…

    2025年12月14日
    000
  • Python中模块导入方法详解 Python中import使用指南

    Python模块导入的核心是import语句,它通过sys.path搜索路径加载模块,支持import module、from module import object、别名导入及相对导入等多种方式,合理选择可避免命名冲突、循环导入等问题,提升代码可维护性。 Python中模块导入的核心在于 imp…

    2025年12月14日
    000
  • Python中文件怎么读写 Python中文件读写操作指南

    Python文件读写核心是使用open()函数打开文件,通过read()、write()等方法操作内容,并用with语句确保文件安全关闭。 Python中文件读写,核心在于使用内置的 open() 函数来打开文件,然后根据你想要进行的操作(读取、写入或追加)选择合适的模式。之后,通过文件对象提供的各…

    2025年12月14日
    000
  • Python中字典遍历的几种方式 Python中字典遍历方法示例

    Python中遍历字典主要有三种方式:直接遍历键、使用values()遍历值、使用items()遍历键值对;选择依据是所需数据类型,其中items()最Pythonic;自Python 3.7起,字典保持插入顺序;遍历时直接修改字典会引发错误,应通过副本或新建字典来安全操作。 Python中遍历字典…

    2025年12月14日
    000
  • Python如何操作集合_Python集合使用方法归纳

    Python集合是无序、不重复元素的容器,适用于去重、快速成员检测及数学集合运算。 Python集合,在我看来,是处理数据去重和执行数学集合运算时,一个极其高效且优雅的工具。它本质上是一个无序且不包含重复元素的容器。你可以通过字面量 {} (但注意, {} 创建的是空字典,空集合需要用 set() …

    2025年12月14日
    000
  • Python中排序算法如何实现 Python中排序算法详解

    选择合适的排序算法需根据数据规模、特性、内存限制和稳定性需求综合判断,Python内置sort()和sorted()方法高效且支持自定义key函数实现灵活排序,实际应用中推荐使用内置方法而非手动实现。 Python中排序算法的实现,本质上是将一系列无序的数据,通过特定的步骤,最终变成有序排列的过程。…

    2025年12月14日
    000
  • Python中递归函数如何编写 Python中递归函数详解

    递归函数的核心是函数自我调用并设停手条件。首先确定基线条件(如n≤1时返回n),再定义递归步骤(如fibonacci(n-1)+fibonacci(n-2)),确保问题规模缩小。常见陷阱包括无限递归导致的RecursionError和重复计算带来的性能问题,可通过记忆化(缓存已计算结果)优化。递归适…

    2025年12月14日
    000
  • python怎么连接mysql数据库_python数据库操作指南

    Python连接MySQL需使用PyMySQL等库作为“桥梁”,通过API发送SQL指令。首先安装库并建立连接,注意配置host、user、password等参数,推荐使用环境变量避免硬编码。常见认证问题包括用户名密码错误、权限不足(如’@localhost’与’…

    2025年12月14日
    000
  • Python中装饰器怎么用 Python中装饰器使用指南

    装饰器是Python中用于包装或修改函数、方法或类行为的高阶函数,无需修改原代码即可添加日志、计时、权限校验等横切关注点。其核心语法为@decorator_name,本质是将函数作为参数传入装饰器并返回新函数。使用functools.wraps可保留原函数元信息,避免调试困难。带参数的装饰器需多一层…

    2025年12月14日
    000
  • Python如何实现排序_Python排序算法与应用实例

    Python内置排序基于Timsort算法,结合归并排序与插入排序,兼具高效性与稳定性,适用于绝大多数场景;日常开发应优先使用list.sort()或sorted(),仅在学习、特定数据分布或极端优化需求下才考虑手写排序算法。 Python实现排序主要依赖其内置的 list.sort() 方法和 s…

    2025年12月14日
    000
  • Python如何操作Excel_Python读写Excel文件方法归纳

    Python操作Excel推荐根据需求选择库:处理.xlsx文件且需单元格级控制时用openpyxl;进行数据分析和批量处理时首选pandas;兼容旧版.xls文件可使用xlrd和xlwt;生成复杂报表且仅需写入时选用xlsxwriter。openpyxl支持读写及样式、合并单元格等精细控制,适合自…

    2025年12月14日
    000
  • Python怎样画图表_Python数据可视化绘图教程汇总

    Python中常用Matplotlib、Seaborn、Plotly等库进行数据可视化,适用于不同场景:Matplotlib适合基础绘图与高度自定义,Seaborn擅长统计分析与美观图表,Plotly用于交互式Web图表。常见图表包括折线图(趋势)、散点图(关系)、柱状图(比较)、直方图(分布)、箱…

    2025年12月14日
    000
  • Python中文件读写操作教程 Python中open函数用法解析

    答案:Python文件操作以open()函数为核心,配合with语句可安全高效地读写文件;处理大文件时应采用流式读取或分块写入,避免内存溢出;编码需明确指定为utf-8以防乱码,关键数据更新宜用临时文件加原子替换策略,确保数据完整性。 Python的文件读写操作,说白了,就是程序与外部数据交互的桥梁…

    2025年12月14日
    000
  • Python中优化嵌套循环数值计算的Numba加速指南

    本文旨在提供一套实用的教程,指导如何在Python中通过Numba库显著提升深度嵌套循环的数值计算性能。我们将探讨如何利用Numba的JIT(Just-In-Time)编译功能,以及进一步结合其并行计算能力(prange),将原本耗时数十分钟甚至更长的计算任务,优化至秒级完成,从而有效应对大规模科学…

    2025年12月14日
    000
  • Python中try except异常处理教程 Python中异常捕获方法详解

    答案:Python中通过try-except机制优雅处理异常,提升代码健壮性;应避免空except和过度捕获,推荐使用具体异常类型、精简try块、finally资源清理,并提倡EAFP编程风格与自定义异常以增强可维护性。 Python编程中,错误和意外情况是常态,而 try-except 机制正是我…

    2025年12月14日
    000
  • Python怎么使用NumPy库_NumPy数组操作教程一览

    NumPy是Python科学计算的核心库,提供高性能多维数组ndarray及向量化操作工具。通过import numpy as np导入后,可使用np.array()、np.zeros()、np.ones()、np.linspace()等函数创建数组,相比Python列表,ndarray存储同类型数…

    2025年12月14日
    000
  • Python中列表如何添加元素 Python中列表添加元素方法

    Python中向列表添加元素有append()、insert()、extend()和+运算符四种主要方式。append()用于在末尾添加单个元素;insert()可在指定位置插入元素,但频繁使用尤其在列表开头插入时性能较差,时间复杂度为O(n);extend()适用于将可迭代对象的元素逐个添加到列表…

    2025年12月14日
    000
  • Python中爬虫如何编写 Python中爬虫入门教程

    Python爬虫核心库是requests和BeautifulSoup,前者用于发送HTTP请求,后者用于解析HTML;面对动态内容可用Selenium模拟浏览器行为,应对反爬机制需设置请求头、控制频率、处理登录等;同时必须遵守robots.txt、服务条款,尊重隐私与版权,避免对服务器造成负担。 P…

    2025年12月14日
    000
  • 使用 Numba 加速 Python 嵌套循环

    本文将探讨如何使用 Numba 库中的 Just-In-Time (JIT) 编译器来显著提升 Python 中嵌套循环的执行速度。通过简单的装饰器 @njit 和 prange,可以将耗时的循环计算加速数十倍,尤其是在涉及大量数值计算的场景中。此外,文章还展示了如何通过存储中间结果来进一步优化代码…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信