Python怎么使用Pandas库_Pandas数据处理入门指南

Pandas数据清洗常用技巧包括处理缺失值、重复值、异常值、文本数据、日期时间及数据标准化。具体为:用dropna()或fillna()处理缺失值;drop_duplicates()去除重复数据;通过IQR或标准差识别异常值并合理处理;利用str方法清洗文本,如去空格、大小写转换;用to_datetime统一日期格式;结合业务需求进行数据归一化。同时需注意链式赋值警告、性能优化和内存管理等最佳实践。

python怎么使用pandas库_pandas数据处理入门指南

Pandas是Python数据科学领域的一把瑞士军刀,它提供了一系列高效的数据结构和数据分析工具,让你能轻松处理和分析表格型数据,就像在用一个超级强大的Excel。无论是数据清洗、转换、聚合还是探索性分析,Pandas都能提供直观且高性能的解决方案。

解决方案

要开始使用Pandas,第一步通常是导入它,约定俗成地使用

pd

作为别名。

import pandas as pdimport numpy as np # 经常和Pandas一起使用

1. 创建数据结构:DataFrame和Series

Pandas最核心的两个数据结构是DataFrame和Series。Series可以看作带标签的一维数组,而DataFrame则是一个二维的、表格型数据结构,每列可以有不同的数据类型。

立即学习“Python免费学习笔记(深入)”;

创建Series:

s = pd.Series([1, 3, 5, np.nan, 6, 8])print(s)# 输出:# 0    1.0# 1    3.0# 2    5.0# 3    NaN# 4    6.0# 5    8.0# dtype: float64

创建DataFrame,这通常是我们日常工作中打交道最多的。可以从字典、列表的列表,或者直接从CSV、Excel文件加载。

# 从字典创建DataFramedata = {    '姓名': ['张三', '李四', '王五', '赵六'],    '年龄': [25, 30, 28, 35],    '城市': ['北京', '上海', '广州', '深圳'],    '薪资': [8000, 12000, 9000, 15000]}df = pd.DataFrame(data)print(df)# 输出:#   姓名  年龄  城市    薪资# 0  张三  25  北京   8000# 1  李四  30  上海  12000# 2  王五  28  广州   9000# 3  赵六  35  深圳  15000

2. 从文件加载数据

真实世界的数据很少是手动输入的,更多是从文件读取。Pandas对多种文件格式提供了强大的支持。

# 读取CSV文件# df_csv = pd.read_csv('your_data.csv')# 读取Excel文件# df_excel = pd.read_excel('your_data.xlsx', sheet_name='Sheet1')# 读取JSON文件# df_json = pd.read_json('your_data.json')

通常,

pd.read_csv()

是最常用的函数,因为它能处理各种分隔符、编码问题。

3. 数据查看与初步探索

拿到数据后,第一件事是看看它长什么样。

print(df.head()) # 查看前5行print(df.tail(3)) # 查看后3行print(df.info()) # 查看数据概览,包括列名、非空值数量、数据类型print(df.describe()) # 对数值列进行统计描述,如均值、标准差、最大最小值等print(df.shape) # 查看行数和列数 (rows, columns)print(df.columns) # 查看所有列名

4. 数据选择与过滤

这是数据分析的基础操作,如何精准地取出你想要的数据。

选择单列或多列:

print(df['姓名']) # 选择单列,返回Seriesprint(df[['姓名', '薪资']]) # 选择多列,返回DataFrame

使用

loc

iloc

进行行和列的选择:

loc

:基于标签(列名、行索引)选择。

iloc

:基于整数位置选择。

print(df.loc[0]) # 选择第一行print(df.loc[0, '姓名']) # 选择第一行'姓名'列的值print(df.loc[0:2, ['姓名', '年龄']]) # 选择0到2行(包含2),'姓名'和'年龄'列print(df.iloc[0:3, 0:2]) # 选择前3行,前2列(基于位置)

条件过滤:

# 筛选年龄大于30的员工older_employees = df[df['年龄'] > 30]print(older_employees)# 筛选城市是上海且薪资高于10000的员工filtered_df = df[(df['城市'] == '上海') & (df['薪资'] > 10000)]print(filtered_df)

5. 数据清洗与处理

这是数据分析中最耗时也最关键的一步。

缺失值处理:

# 检查缺失值print(df.isnull().sum())# 删除含有缺失值的行# df_cleaned = df.dropna()# 填充缺失值# df_filled = df.fillna(value=0) # 用0填充所有缺失值# df['年龄'].fillna(df['年龄'].mean(), inplace=True) # 用年龄均值填充年龄列的缺失值

数据类型转换:

# 将某一列转换为特定类型# df['年龄'] = df['年龄'].astype(int)

重复值处理:

# 检查重复行# print(df.duplicated().sum())# 删除重复行# df_no_duplicates = df.drop_duplicates()

6. 数据聚合与分组

groupby()

是Pandas中最强大的功能之一,它允许你按照一个或多个列对数据进行分组,然后对每个组执行聚合操作(如求和、均值、计数等)。

# 按照城市分组,计算每个城市的平均薪资avg_salary_by_city = df.groupby('城市')['薪资'].mean()print(avg_salary_by_city)# 按照城市和年龄分组,计算每个组的薪资总和grouped_data = df.groupby(['城市', '年龄'])['薪资'].sum()print(grouped_data)# 可以同时应用多个聚合函数agg_data = df.groupby('城市')['薪资'].agg(['mean', 'max', 'min', 'count'])print(agg_data)

7. 数据合并与连接

当数据分散在多个DataFrame中时,你需要将它们合并起来。

df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': np.random.randn(4)})df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value2': np.random.randn(4)})# 内连接:只保留两个DataFrame中key都存在的行merged_df = pd.merge(df1, df2, on='key', how='inner')print(merged_df)# 左连接:保留左边DataFrame的所有行,匹配右边DataFrame的行left_merged_df = pd.merge(df1, df2, on='key', how='left')print(left_merged_df)# 拼接(Stacking):将多个DataFrame按行或列堆叠起来df3 = pd.DataFrame({'key': ['G', 'H'], 'value': np.random.randn(2)})concatenated_df = pd.concat([df1, df3], ignore_index=True)print(concatenated_df)

Pandas数据清洗的常用技巧有哪些?

数据清洗,这活儿说起来简单,做起来往往是整个项目最磨人的部分。我的经验是,没有哪个数据集是“干净”的,总有些奇奇怪怪的脏数据等着你去处理。Pandas在这方面提供了很多趁手的工具。

除了前面提到的缺失值、重复值处理,还有几个点我觉得特别重要:

异常值检测与处理: 异常值可能是数据录入错误,也可能代表了真实的特殊情况。识别它们是第一步。常用的方法有基于统计(如3倍标准差、IQR范围)或可视化(箱线图、散点图)。Pandas本身没有直接的异常值检测函数,但你可以结合其统计功能轻松实现。

# 假设我们想找出薪资的异常值Q1 = df['薪资'].quantile(0.25)Q3 = df['薪资'].quantile(0.75)IQR = Q3 - Q1lower_bound = Q1 - 1.5 * IQRupper_bound = Q3 + 1.5 * IQRoutliers = df[(df['薪资']  upper_bound)]print("薪资异常值:n", outliers)# 处理方式可以是删除、替换为均值/中位数,或者上限/下限值# df['薪资'] = np.where(df['薪资'] > upper_bound, upper_bound, df['薪资'])

处理异常值需要谨慎,有时它们是宝贵的信息,比如高价值客户或系统故障。

文本数据清洗: 字符串列往往是最混乱的。大小写不一致、多余空格、特殊字符、错别字……这些都得处理。Pandas的

str

访问器非常强大。

df['城市'] = df['城市'].str.strip() # 移除前后空格df['城市'] = df['城市'].str.lower() # 转换为小写df['姓名'] = df['姓名'].str.replace('张', 'ZHANG') # 替换字符# 使用正则表达式进行更复杂的匹配和替换# df['描述'] = df['描述'].str.replace(r'[^ws]', '', regex=True) # 移除所有非字母数字和空格的字符

这里面有个小坑,如果你的字符串列里有

NaN

,直接调用

str

方法会报错,需要先填充或过滤掉缺失值。

日期时间数据处理 日期时间格式不统一是常态。Pandas的

to_datetime

函数能智能地解析多种日期时间格式。

# df['日期'] = pd.to_datetime(df['日期'], errors='coerce') # errors='coerce'会将无法解析的日期转换为NaT(Not a Time)# 提取年份、月份、星期几等# df['年份'] = df['日期'].dt.year# df['月份'] = df['日期'].dt.month

处理日期时间时,时区问题也常常让人头疼,特别是在处理跨国数据时。Pandas提供了

tz_localize

tz_convert

来处理这些。

数据标准化/归一化: 在进行机器学习前,往往需要将不同量纲的数值特征进行缩放。虽然这通常在Pandas之外(如scikit-learn)完成,但Pandas是数据准备的平台。

# 简单的Min-Max标准化示例# df['薪资_normalized'] = (df['薪资'] - df['薪资'].min()) / (df['薪资'].max() - df['薪资'].min())

这些技巧,用得多了自然熟练,但每次遇到新数据,我还是会先花大量时间在清洗上,毕竟“垃圾进,垃圾出”是数据分析的铁律。

Pandas如何进行数据聚合和分组分析?

数据聚合和分组分析是Pandas的灵魂所在,它允许我们从宏观角度理解数据,而不是纠结于每一行。

groupby()

方法就是实现这一点的核心。

想象一下,你有一堆销售数据,你可能想知道每个产品类别的总销售额,或者每个地区的平均订单价值。这就是

groupby()

的用武之地。

基本流程是:Split-Apply-Combine

Split(拆分):根据一个或多个键(列)将DataFrame拆分成若干个组。Apply(应用):对每个组独立地应用一个函数(聚合、转换或过滤)。Combine(组合):将所有组的结果组合成一个新的DataFrame或Series。

最常见的应用是聚合函数:

# 假设我们有一个更复杂的销售数据sales_data = {    '产品类别': ['电子', '服装', '电子', '食品', '服装', '电子', '食品'],    '地区': ['华东', '华南', '华东', '华北', '华南', '华东', '华北'],    '销售额': [1200, 500, 1500, 300, 800, 1000, 450],    '订单数量': [10, 5, 12, 3, 8, 9, 4]}sales_df = pd.DataFrame(sales_data)print("原始销售数据:n", sales_df)# 按产品类别计算总销售额total_sales_by_category = sales_df.groupby('产品类别')['销售额'].sum()print("n按产品类别总销售额:n", total_sales_by_category)# 按地区计算平均订单数量avg_orders_by_region = sales_df.groupby('地区')['订单数量'].mean()print("n按地区平均订单数量:n", avg_orders_by_region)

更进一步,你可以同时对多个列应用不同的聚合函数,使用

agg()

方法:

# 按产品类别和地区分组,同时计算销售额的总和、平均值和订单数量的总和multi_agg = sales_df.groupby(['产品类别', '地区']).agg(    总销售额=('销售额', 'sum'),    平均销售额=('销售额', 'mean'),    总订单数量=('订单数量', 'sum'))print("n多重聚合结果:n", multi_agg)

这里我用了Python 3.6+的f-string风格的

agg

语法,它让输出的列名更清晰,我个人觉得比传入字典的旧方式更直观。

除了聚合,

groupby()

还可以用于转换(transform)过滤(filter)

transform:对每个组应用一个函数,但返回的结果与原始DataFrame的索引对齐,常用于填充组内缺失值或进行组内标准化。

# 计算每个产品类别销售额占该类别总销售额的比例sales_df['类别销售额占比'] = sales_df.groupby('产品类别')['销售额'].transform(lambda x: x / x.sum())print("n带类别销售额占比的数据:n", sales_df)

filter:根据组的某些特性来筛选组。

# 筛选出总销售额超过2000的产品类别filtered_categories = sales_df.groupby('产品类别').filter(lambda x: x['销售额'].sum() > 2000)print("n总销售额超过2000的产品类别数据:n", filtered_categories)

这些高级用法让

groupby()

变得极其灵活,能解决很多复杂的数据分析问题。我发现很多人刚开始用Pandas时,经常会尝试用循环来解决分组问题,但一旦掌握了

groupby()

,效率会提升好几个数量级。

Pandas在实际项目中常见的陷阱与最佳实践?

在实际项目中使用Pandas,我遇到过不少坑,也总结了一些经验。它确实强大,但用不好也容易“翻车”。

常见陷阱:

链式赋值警告(SettingWithCopyWarning): 这是新手最常遇到的问题之一。当你对一个DataFrame的“视图”进行修改时,Pandas会发出警告。

# 错误示例:可能引发SettingWithCopyWarning# df_subset = df[df['年龄'] > 30]# df_subset['薪资'] = df_subset['薪资'] * 1.1 # 这里的修改可能不会反映到原始df,也可能报错

最佳实践: 明确地使用

.loc

.copy()

。如果你想创建一个独立的DataFrame副本,就用

.copy()

;如果想在原始DataFrame上修改,且操作是基于条件选择的,就用

.loc

df_subset = df[df['年龄'] > 30].copy() # 明确复制一份df_subset['薪资'] = df_subset['薪资'] * 1.1# 在原始DataFrame上修改,使用.locdf.loc[df['年龄'] > 30, '薪资'] = df.loc[df['年龄'] > 30, '薪资'] * 1.1

这个坑我踩过好几次,导致数据修改没生效,或者莫名其妙的错误。

性能问题: 对大型数据集使用循环(

for

循环、

apply

配合lambda函数)往往效率低下。

# 性能差的示例:逐行处理# for index, row in df.iterrows():#     df.loc[index, '新列'] = row['列A'] + row['列B']

最佳实践: 尽可能使用Pandas的向量化操作。Pandas底层是C语言实现的,向量化操作能充分利用CPU的并行计算能力。

df['新列'] = df['列A'] + df['列B'] # 向量化操作

如果必须使用

apply

,尽量用在Series上,或者确保你的函数是高度优化的。对于非常复杂的操作,考虑使用

df.apply(..., axis=1)

,但要清楚这通常比向量化慢。更极致的性能需求,可以考虑

numba

modin

内存占用: 大数据集可能导致内存不足。特别是字符串和日期时间列,它们在Pandas中可能比你想象的更占用内存。最佳实践:

选择合适的数据类型: 对于整数或浮点数,使用

int8

,

int16

,

float32

等更小的类型。

df.info(memory_usage='deep')

可以查看详细内存占用。Categorical类型: 对于重复值较多的字符串列(如国家、城市),转换为

category

类型可以显著节省内存。

df['城市'] = df['城市'].astype('category')

分块读取: 对于超大型文件,使用

pd.read_csv(..., chunksize=...)

分块读取和处理数据。

索引管理不当: 索引是Pandas的强大之处,但如果处理不当,也可能导致问题,比如合并时索引不匹配。最佳实践:

在合并或拼接DataFrame时,明确指定

on

参数,或者在不需要索引时使用

reset_index()

。如果索引有实际意义(如时间序列),充分利用它进行时间序列操作。

这些陷阱,说到底都是对Pandas底层机制理解不够深入造成的。多实践,多看官方文档,你会发现Pandas的设计哲学非常精妙。它不是一个简单的工具库,而是一个强大的数据处理框架,值得我们花时间去深入学习。

以上就是Python怎么使用Pandas库_Pandas数据处理入门指南的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1368999.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 09:15:52
下一篇 2025年12月14日 09:16:06

相关推荐

  • Uniapp 中如何不拉伸不裁剪地展示图片?

    灵活展示图片:如何不拉伸不裁剪 在界面设计中,常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。 对于不同尺寸的图片,可以采用以下处理方式: 极端宽高比:撑满屏幕宽度或高度,再等比缩放居中。非极端宽高比:居中显示,若能撑满则撑满。 然而,如果需要不拉伸不…

    2025年12月24日
    400
  • 如何让小说网站控制台显示乱码,同时网页内容正常显示?

    如何在不影响用户界面的情况下实现控制台乱码? 当在小说网站上下载小说时,大家可能会遇到一个问题:网站上的文本在网页内正常显示,但是在控制台中却是乱码。如何实现此类操作,从而在不影响用户界面(UI)的情况下保持控制台乱码呢? 答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体,并通过在客户端…

    2025年12月24日
    800
  • 如何在地图上轻松创建气泡信息框?

    地图上气泡信息框的巧妙生成 地图上气泡信息框是一种常用的交互功能,它简便易用,能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。 利用地图库的原生功能 大多数地图库,如高德地图,都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现: 高德地图 JS API 参考文…

    2025年12月24日
    400
  • 如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画?

    如何实现元素scrollleft变化时的平滑动画效果? 在许多网页应用中,滚动容器的水平滚动条(scrollleft)需要频繁使用。为了让滚动动作更加自然,你希望给scrollleft的变化添加动画效果。 解决方案:scroll-behavior 属性 要实现scrollleft变化时的平滑动画效果…

    2025年12月24日
    000
  • 如何为滚动元素添加平滑过渡,使滚动条滑动时更自然流畅?

    给滚动元素平滑过渡 如何在滚动条属性(scrollleft)发生改变时为元素添加平滑的过渡效果? 解决方案:scroll-behavior 属性 为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码: click the button to slide right!…

    2025年12月24日
    500
  • 如何选择元素个数不固定的指定类名子元素?

    灵活选择元素个数不固定的指定类名子元素 在网页布局中,有时需要选择特定类名的子元素,但这些元素的数量并不固定。例如,下面这段 html 代码中,activebar 和 item 元素的数量均不固定: *n *n 如果需要选择第一个 item元素,可以使用 css 选择器 :nth-child()。该…

    2025年12月24日
    200
  • 使用 SVG 如何实现自定义宽度、间距和半径的虚线边框?

    使用 svg 实现自定义虚线边框 如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片,但是这种方法存在引入外部资源、性能低下的缺点。 为了避免上述问题,可以使用 svg(可缩放矢量图形)来创建纯代码实现。一种方…

    2025年12月24日
    100
  • 如何解决本地图片在使用 mask JS 库时出现的跨域错误?

    如何跨越localhost使用本地图片? 问题: 在本地使用mask js库时,引入本地图片会报跨域错误。 解决方案: 要解决此问题,需要使用本地服务器启动文件,以http或https协议访问图片,而不是使用file://协议。例如: python -m http.server 8000 然后,可以…

    2025年12月24日
    200
  • 如何让“元素跟随文本高度,而不是撑高父容器?

    如何让 元素跟随文本高度,而不是撑高父容器 在页面布局中,经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中,父容器被较高的图片撑开,而文本的高度没有被考虑。本问答将提供纯css解决方案,让图片跟随文本高度,确保父容器的高度不会被图片影响。 解决方法 为了解决这个问题,需要将图片从文档流中脱离…

    2025年12月24日
    000
  • 为什么 CSS mask 属性未请求指定图片?

    解决 css mask 属性未请求图片的问题 在使用 css mask 属性时,指定了图片地址,但网络面板显示未请求获取该图片,这可能是由于浏览器兼容性问题造成的。 问题 如下代码所示: 立即学习“前端免费学习笔记(深入)”; icon [data-icon=”cloud”] { –icon-cl…

    2025年12月24日
    200
  • 如何利用 CSS 选中激活标签并影响相邻元素的样式?

    如何利用 css 选中激活标签并影响相邻元素? 为了实现激活标签影响相邻元素的样式需求,可以通过 :has 选择器来实现。以下是如何具体操作: 对于激活标签相邻后的元素,可以在 css 中使用以下代码进行设置: li:has(+li.active) { border-radius: 0 0 10px…

    2025年12月24日
    100
  • 如何模拟Windows 10 设置界面中的鼠标悬浮放大效果?

    win10设置界面的鼠标移动显示周边的样式(探照灯效果)的实现方式 在windows设置界面的鼠标悬浮效果中,光标周围会显示一个放大区域。在前端开发中,可以通过多种方式实现类似的效果。 使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

    2025年12月24日
    200
  • 为什么我的 Safari 自定义样式表在百度页面上失效了?

    为什么在 Safari 中自定义样式表未能正常工作? 在 Safari 的偏好设置中设置自定义样式表后,您对其进行测试却发现效果不同。在您自己的网页中,样式有效,而在百度页面中却失效。 造成这种情况的原因是,第一个访问的项目使用了文件协议,可以访问本地目录中的图片文件。而第二个访问的百度使用了 ht…

    2025年12月24日
    000
  • 如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果?

    如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果 想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果,可以通过以下途径: CSS 解决方案 DEMO 1: Windows 10 网格悬停效果:https://codepen.io/tr4553r7/pe…

    2025年12月24日
    000
  • 使用CSS mask属性指定图片URL时,为什么浏览器无法加载图片?

    css mask属性未能加载图片的解决方法 使用css mask属性指定图片url时,如示例中所示: mask: url(“https://api.iconify.design/mdi:apple-icloud.svg”) center / contain no-repeat; 但是,在网络面板中却…

    2025年12月24日
    000
  • 如何用CSS Paint API为网页元素添加时尚的斑马线边框?

    为元素添加时尚的斑马线边框 在网页设计中,有时我们需要添加时尚的边框来提升元素的视觉效果。其中,斑马线边框是一种既醒目又别致的设计元素。 实现斜向斑马线边框 要实现斜向斑马线间隔圆环,我们可以使用css paint api。该api提供了强大的功能,可以让我们在元素上绘制复杂的图形。 立即学习“前端…

    2025年12月24日
    000
  • 图片如何不撑高父容器?

    如何让图片不撑高父容器? 当父容器包含不同高度的子元素时,父容器的高度通常会被最高元素撑开。如果你希望父容器的高度由文本内容撑开,避免图片对其产生影响,可以通过以下 css 解决方法: 绝对定位元素: .child-image { position: absolute; top: 0; left: …

    2025年12月24日
    000
  • 使用 Mask 导入本地图片时,如何解决跨域问题?

    跨域疑难:如何解决 mask 引入本地图片产生的跨域问题? 在使用 mask 导入本地图片时,你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢?让我们深入了解一下: mask 框架假设你以 http(s) 协议加载你的 html 文件,而当使用 file:// 协议打开本地文件时,就会产生跨域…

    2025年12月24日
    200
  • CSS 帮助

    我正在尝试将文本附加到棕色框的左侧。我不能。我不知道代码有什么问题。请帮助我。 css .hero { position: relative; bottom: 80px; display: flex; justify-content: left; align-items: start; color:…

    2025年12月24日 好文分享
    200
  • 前端代码辅助工具:如何选择最可靠的AI工具?

    前端代码辅助工具:可靠性探讨 对于前端工程师来说,在HTML、CSS和JavaScript开发中借助AI工具是司空见惯的事情。然而,并非所有工具都能提供同等的可靠性。 个性化需求 关于哪个AI工具最可靠,这个问题没有一刀切的答案。每个人的使用习惯和项目需求各不相同。以下是一些影响选择的重要因素: 立…

    2025年12月24日
    300

发表回复

登录后才能评论
关注微信