如何使用Python进行数据科学分析（Pandas, NumPy基础）？

程序猿 • 2025年12月14日 10:31:42 • 好文分享 • 阅读 0

Python数据科学分析的核心是掌握NumPy和Pandas。NumPy提供高效的N维数组和向量化计算，奠定性能基础；Pandas在此之上构建DataFrame和Series，实现数据清洗、转换、分析的高效操作。两者协同工作，NumPy负责底层数值计算，Pandas提供高层数据结构与操作，广泛应用于数据预处理、聚合、筛选等任务。实际应用中需注意数据类型、广播规则、性能优化及内存管理，避免apply()等低效操作，理解SettingWithCopyWarning等机制。通过结合二者优势，可高效完成从基础处理到复杂分析的全流程。

Python进行数据科学分析，核心在于掌握Pandas和NumPy这两个库。它们就像是数据处理领域的左右手：NumPy提供了高效的数值计算能力和基础的数据结构，是所有高级操作的基石；而Pandas则在此之上构建，以其强大的DataFrame和Series对象，极大地简化了数据清洗、处理、转换和分析的整个流程，让复杂的数据操作变得直观且高效。

解决方案

要真正上手使用Python进行数据科学分析，我们需要从NumPy和Pandas的基础操作开始。这不仅仅是学习语法，更是理解它们背后处理数据的方式。

首先，确保你的环境中安装了这两个库。通常，一个简单的

pip install pandas numpy

就能搞定。

NumPy：数组与向量化计算

立即学习“Python免费学习笔记（深入）”；

NumPy（Numerical Python）是Python科学计算的核心库，它引入了N维数组对象（ndarray），并提供了大量用于处理这些数组的函数。在我看来，NumPy的魅力在于其对性能的极致追求，它将许多操作下放到C语言层面，使得大规模数值计算速度惊人。

import numpy as np# 创建NumPy数组arr1 = np.array([1, 2, 3, 4, 5])arr2 = np.array([[1, 2, 3], [4, 5, 6]])print("一维数组:", arr1)print("二维数组:n", arr2)# 基本运算，这是NumPy最强大的地方——向量化操作# 数组与标量运算print("数组+5:", arr1 + 5)# 数组与数组运算（对应元素相加）arr3 = np.array([10, 20, 30, 40, 50])print("数组相加:", arr1 + arr3)# 形状操作print("arr2的形状:", arr2.shape)arr2_reshaped = arr2.reshape(3, 2)print("arr2重塑后:n", arr2_reshaped)# 索引与切片print("arr1的第二个元素:", arr1[1])print("arr2的第一行:", arr2[0, :]) # 或者 arr2[0]print("arr2的第二列:", arr2[:, 1])

NumPy的向量化操作意味着你不需要写显式的循环来对数组中的每个元素进行操作，这不仅代码更简洁，效率也更高。

Pandas：数据框与结构化数据

Pandas是建立在NumPy之上的一个库，它提供了两种核心数据结构：Series（一维带标签数组）和DataFrame（二维带标签表格）。对我来说，DataFrame简直是数据分析师的“瑞士军刀”，它把我们习惯的电子表格或数据库表的概念带到了Python中，而且功能强大到超乎想象。

import pandas as pd# 创建Seriess = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])print("Series:n", s)# 创建DataFramedata = {    '姓名': ['张三', '李四', '王五', '赵六'],    '年龄': [25, 30, 28, 35],    '城市': ['北京', '上海', '广州', '深圳'],    '分数': [85, 92, 78, 95]}df = pd.DataFrame(data)print("nDataFrame:n", df)# 查看数据概览print("nDataFrame头部:n", df.head(2))print("nDataFrame信息:n")df.info()print("nDataFrame统计描述:n", df.describe())# 选择列print("n选择'姓名'列:n", df['姓名'])print("n选择多列:n", df[['姓名', '年龄']])# 选择行（通过标签.loc或位置.iloc）print("n选择第一行（通过位置）:n", df.iloc[0])print("n选择索引为1和3的行:n", df.iloc[[1, 3]])# 条件筛选print("n年龄大于30的数据:n", df[df['年龄'] > 30])# 添加新列df['是否及格'] = df['分数'] >= 60print("n添加'是否及格'列后:n", df)# 数据排序print("n按年龄降序排序:n", df.sort_values(by='年龄', ascending=False))# 处理缺失值（示例，这里没有缺失值）# df_with_nan = df.copy()# df_with_nan.loc[0, '分数'] = np.nan# print("n含有缺失值的DataFrame:n", df_with_nan)# print("n缺失值数量:n", df_with_nan.isnull().sum())# print("n删除缺失值行:n", df_with_nan.dropna())# print("n填充缺失值:n", df_with_nan.fillna(0))# 聚合操作print("n按城市分组，计算平均分数:n", df.groupby('城市')['分数'].mean())

通过这些基础操作，我们已经能对数据进行初步的探索、清洗和转换。实际工作中，数据往往是脏乱的，Pandas的这些功能是数据预处理阶段不可或缺的利器。

NumPy如何为高效数据处理奠定基础？

在我看来，NumPy在数据处理中的核心地位，主要源于其对N维数组对象（ndarray）的引入和向量化操作的强大支持。设想一下，如果你有一百万个数字需要同时乘以2，用Python原生的列表和循环，你会发现速度慢得让人抓狂。但NumPy的ndarray就能在毫秒级别完成这项任务。

这背后有几个关键原因：

内存效率与数据连续性： NumPy数组在内存中是连续存储的，这意味着CPU在访问数据时效率极高，避免了Python对象在内存中散乱分布带来的开销。这种紧凑的存储方式也大大减少了内存占用。C语言实现： NumPy的底层是用C和Fortran等编译型语言实现的。当你在Python中调用NumPy函数时，实际上是调用了高度优化的底层代码。这就像你把一个复杂的计算任务外包给了一个超级快的专业团队。向量化操作： 这是NumPy的标志性特征。你可以直接对整个数组执行数学运算，而不需要显式地编写

for

循环。例如，

arr + 5

会将数组

arr

中的每个元素都加上5，

arr1 * arr2

会执行对应元素的乘法。这种操作方式不仅代码更简洁易读，更重要的是，它避免了Python解释器的循环开销，效率呈几何级数提升。

让我们看一个简单的例子，对比一下Python列表和NumPy数组的性能差异：

import timelist_data = list(range(1, 1000001)) # 100万个数字numpy_data = np.arange(1, 1000001)# 使用Python列表进行操作start_time = time.time()result_list = [x * 2 for x in list_data]end_time = time.time()print(f"Python列表操作耗时: {end_time - start_time:.4f} 秒")# 使用NumPy数组进行操作start_time = time.time()result_numpy = numpy_data * 2end_time = time.time()print(f"NumPy数组操作耗时: {end_time - start_time:.4f} 秒")

运行这段代码，你会发现NumPy的速度优势是压倒性的。这种效率提升，对于处理大型数据集时至关重要。可以说，没有NumPy，Pandas的强大功能也无从谈起，因为Pandas的DataFrame内部就是基于NumPy数组构建的。NumPy为Python在科学计算领域取得今天的地位，奠定了坚实的基础。

Pandas DataFrame：数据分析的瑞士军刀？

如果说NumPy是数据处理的“发动机”，那么Pandas DataFrame就是“整车”，它把数据组织得井井有条，并提供了各种方便的工具。我个人觉得，称DataFrame为“数据分析的瑞士军刀”一点也不为过，因为它几乎涵盖了数据分析过程中所有可能遇到的基本操作。

DataFrame最核心的优势在于它提供了一个带标签的二维表格结构，这与我们日常接触的Excel表格、SQL数据库表非常相似。它有行索引（index）和列名（columns），可以存储不同类型的数据（整数、浮点数、字符串、布尔值等），并且能方便地进行各种操作：

直观的数据表示： 数据以表格形式呈现，一目了然。你可以通过列名直接访问数据，也可以通过行索引进行定位。强大的数据选择与过滤：

loc

和

iloc

让基于标签或位置的选择变得异常灵活。结合布尔条件，你可以轻松地筛选出符合特定条件的数据子集，这在数据探索和清洗时非常有用。数据清洗与预处理： DataFrame提供了丰富的函数来处理缺失值（

isnull()

dropna()

fillna()

）、重复值（

drop_duplicates()

）、数据类型转换（

astype()

）等。这些功能极大地减少了手动处理数据的繁琐程度。数据聚合与分组：

groupby()

方法是Pandas的明星功能之一。它可以让你根据一个或多个列对数据进行分组，然后对每个组应用聚合函数（如

mean()

sum()

count()

median()

等），快速得到汇总统计信息。这在理解数据模式、进行探索性分析时非常关键。数据合并与连接： 多个DataFrame可以通过

merge()

join()

concat()

等操作进行合并，这对于从不同来源整合数据非常实用，就像数据库中的JOIN操作一样。时间序列功能： Pandas对时间序列数据有原生支持，可以方便地进行日期时间索引、重采样、移动窗口计算等操作，这在金融、物联网等领域非常重要。

举个例子，假设我们有一个销售数据DataFrame，我们想看看每个产品的平均销售额，并找出销售额最高的城市。

data_sales = {    '产品': ['A', 'B', 'A', 'C', 'B', 'A', 'C'],    '城市': ['北京', '上海', '广州', '北京', '深圳', '上海', '广州'],    '销售额': [120, 150, 130, 90, 200, 110, 80],    '销量': [10, 15, 12, 8, 20, 11, 7]}df_sales = pd.DataFrame(data_sales)print("原始销售数据:n", df_sales)# 按产品分组，计算平均销售额avg_sales_by_product = df_sales.groupby('产品')['销售额'].mean()print("n按产品分组的平均销售额:n", avg_sales_by_product)# 按城市分组，计算总销售额，并找到销售额最高的城市total_sales_by_city = df_sales.groupby('城市')['销售额'].sum()print("n按城市分组的总销售额:n", total_sales_by_city)highest_sales_city = total_sales_by_city.idxmax()print(f"n销售额最高的城市是: {highest_sales_city}，总销售额为: {total_sales_by_city.max()}")

通过几行简洁的代码，我们就完成了复杂的聚合和分析。这种效率和直观性，正是Pandas DataFrame成为数据分析领域不可或缺工具的原因。它不仅提供了强大的功能，更重要的是，它以一种非常“Pythonic”的方式，让数据处理和分析变得更加愉快和高效。

从实战案例看Pandas与NumPy的协作与挑战

在实际的数据科学项目中，Pandas和NumPy并非独立存在，它们是紧密协作的。Pandas的DataFrame和Series对象内部实际上是基于NumPy数组构建的，这意味着你可以在Pandas对象上直接应用NumPy的函数，或者将Pandas对象转换为NumPy数组进行更底层的数值计算。这种无缝集成是它们强大力量的来源。

考虑一个场景：我们有一个包含用户体征数据（身高、体重）的DataFrame，需要计算每个用户的BMI（身体质量指数），并识别出BMI异常的用户。BMI的计算公式是：体重（公斤）/ 身高（米）的平方。

# 假设数据是厘米和公斤user_data = {    '用户ID': [1, 2, 3, 4, 5],    '身高_cm': [175, 160, 180, 165, 170],    '体重_kg': [70, 55, 90, 60, 65]}df_users = pd.DataFrame(user_data)print("原始用户数据:n", df_users)# 步骤1: 将身高从厘米转换为米 (Pandas操作)df_users['身高_m'] = df_users['身高_cm'] / 100# 步骤2: 计算BMI (NumPy与Pandas协作)# 这里直接在Pandas Series上进行NumPy风格的向量化操作df_users['BMI'] = df_users['体重_kg'] / (df_users['身高_m'] ** 2)# 步骤3: 根据BMI判断健康状况 (Pandas条件筛选)# 假设BMI = 25 为超重def classify_bmi(bmi):    if bmi < 18.5:        return '偏瘦'    elif 18.5 <= bmi < 25:        return '正常'    else:        return '超重'# 使用apply方法，对BMI列的每个元素应用自定义函数# 注意：对于大型数据集，尽量避免使用apply，优先使用向量化操作df_users['健康状况'] = df_users['BMI'].apply(classify_bmi)print("n计算BMI及健康状况后的用户数据:n", df_users)

在这个例子中，

df_users['身高_cm'] / 100

和

df_users['体重_kg'] / (df_users['身高_m'] ** 2)

都是Pandas Series上的向量化操作，但它们底层依赖NumPy的广播和高效数值计算。

** 2

操作也是NumPy提供的。

然而，这种协作也伴随着一些挑战，特别是对于初学者：

理解数据类型： Pandas会尽力推断列的数据类型，但有时需要手动调整（

df['col'].astype(int)

）。NumPy的数组要求所有元素类型一致，理解这一点对于避免意外行为很重要。广播规则（Broadcasting）： NumPy的广播机制非常强大，允许不同形状的数组进行运算，但其规则有时会让人困惑。比如，一个一维数组如何与一个二维数组相加，这需要一些练习才能掌握。性能陷阱：

apply()

与向量化。虽然

df.apply()

非常灵活，可以处理各种自定义逻辑，但它本质上是在Python层面进行循环，效率远低于NumPy或Pandas内置的向量化函数。在处理大数据时，应尽可能寻找替代的向量化方法（如条件筛选、

np.where()

、

map()

等）。

SettingWithCopyWarning

：这是Pandas中一个常见的警告，通常在你尝试修改一个DataFrame的“视图”而不是“副本”时出现。不理解它可能导致数据修改不生效或产生意外结果。正确的做法通常是使用

.loc

进行链式索引，或者明确地创建副本。内存管理： 对于非常大的数据集，即使NumPy和Pandas效率很高，也可能遇到内存不足的问题。这时就需要考虑分块处理、使用更高效的数据类型（如

int8

代替

int64

）、或者使用Dask等工具进行并行计算。

在我看来，掌握NumPy和Pandas不仅仅是学习API，更重要的是理解它们背后的设计哲学和工作原理。只有这样，你才能在面对实际数据问题时，游刃有余地选择最有效、最高效的工具和方法。

以上就是如何使用Python进行数据科学分析（Pandas, NumPy基础）？的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1370420.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

使用 Pandas DataFrame 根据条件迭代行并更新列值

上一篇 2025年12月14日 10:31:31

如何进行Django的数据库查询优化？

下一篇 2025年12月14日 10:31:45

好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
2000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
2000
好文分享

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
0000
好文分享

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
0000
好文分享

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
0000
好文分享

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
好文分享

响应式HTML5按钮适配不同屏幕方法【方法】

实现响应式HTML5按钮需五种方法：一、CSS媒体查询按max-width断点调整样式；二、用rem/vw等相对单位替代px；三、Flexbox控制容器与按钮伸缩；四、CSS变量配合requestAnimationFrame优化的JS动态适配；五、Tailwind等框架的响应式工具类。如果您希望H…

程序猿
2025年12月23日
0000
好文分享

html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

HTML5无法直接导出video标签内容，需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制；FFmpeg.wasm支持MP4等格式及精细编码控制；服务端方案适合高负载场景。如果您希望在网页…

程序猿
2025年12月23日
3000
好文分享

如何查看编写的html_查看自己编写的HTML文件效果【效果】

要查看HTML文件的浏览器渲染效果，需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。如果您编写了HTML代码，但无法直观看到其在浏览器中的实际渲染效果，则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

程序猿
2025年12月23日
4000
好文分享

html5怎么加php_html5用Ajax与PHP后端交互实现数据传递【交互】

HTML5不能直接运行PHP，需通过Ajax与PHP通信：前端用fetch发送请求，PHP接收处理并返回JSON，前端解析响应更新DOM；注意跨域、编码、CSRF防护和输入过滤。 HTML5 本身是前端标记语言，不能直接运行 PHP 代码，但可以通过 Ajax（异步 JavaScript）与 PHP…

程序猿
2025年12月23日
3000
好文分享

html5 js怎么加_html5用script标签内嵌或外链引入JS代码【添加】

在HTML5中执行JavaScript需通过script标签：一、内联编写于head或body中；二、外链引入.js文件并建议放body末尾或加defer；三、defer按序执行，async独立执行；四、可动态创建script元素插入执行。如果您希望在HTML5页面中执行JavaScript代码，…

程序猿
2025年12月23日
0000
好文分享

node.js怎么运行html_node.js运行html步骤【指南】

答案是使用Node.js内置http模块、Express框架或第三方工具serve可快速搭建服务器预览HTML文件。首先通过http模块创建服务器并读取index.html返回响应；其次用Express初始化项目并配置静态文件服务；最后利用serve工具全局安装后一键启动服务器，三种方式均在浏览器访…

程序猿
2025年12月23日
3000
好文分享

html5能否插入带表单的文档_html5表单文档嵌入与数据提交【步骤】

HTML5中无法直接嵌入外部带表单的HTML文档并原生提交；可行方案有四：一、用iframe嵌入，需同源或CORS支持，并用postMessage通信；二、用fetch+DOMParser动态加载表单片段并手动绑定事件；三、在当前页面直接编写表单，最规范且兼容性好；四、用JavaScript+fet…

程序猿
2025年12月23日
0000
好文分享

html5游戏怎么修改_HT5改JS逻辑或资源文件调整游戏玩法效果【修改】

需直接编辑核心JavaScript代码或替换图片、音频等资源文件；先用浏览器开发者工具的Sources面板定位含game、main等关键词的.js文件，再搜索score++、if (health等逻辑片段进行修改。如果您下载了某个HTML5游戏的本地文件，希望调整其玩法逻辑或替换资源以改变视觉效果…

程序猿
2025年12月23日
0000
好文分享

360怎么装html5_360浏览器默认支持HTML5无需额外安装设置【说明】

HTML5是网页标准，非独立软件，360浏览器7.0+已原生支持；需确认内核为Blink/Chromium、关闭兼容模式、禁用强制兼容策略、重置Flash插件、清除HTML5本地存储、检查系统Media Foundation组件。如果您在使用360浏览器时发现HTML5网页功能异常（如视频无法播放…

程序猿
2025年12月23日
0000
好文分享

html5怎么重叠图片_html5用position:absolute或z-index让图片重叠【重叠】

在HTML5中实现图片重叠需结合CSS定位与层叠控制：一、用position:absolute+top/left精确定位，父容器设position:relative；二、用z-index设定堆叠顺序（需已定位）；三、用transform:translate()实现无文档流干扰的偏移重叠；四、用CSS…

程序猿
2025年12月23日
2000
好文分享

html5怎么打包运行_HT5用Webpack或Gulp打包后浏览器打开运行【打包】

应通过 HTTP 服务运行打包后的 HTML5 页面，而非双击打开：一、Webpack 配 webpack-dev-server 启动本地服务；二、Gulp 配 BrowserSync 提供实时重载；三、用 Python/Node.js 轻量 HTTP 工具托管 dist 目录；四、仅当必须双击运行…

程序猿
2025年12月23日
0000
好文分享

html5文件运行不出来怎么回事_析html5文件运行失败原因【解析】

首先检查文件扩展名和编码格式，确保为.html且使用UTF-8编码；接着验证HTML5结构完整性，包含及正确闭合的标签；然后排查外部资源路径是否正确，利用开发者工具查看404错误；排除浏览器兼容性问题，优先在现代浏览器中测试并避免未广泛支持的API；检查JavaScript语法错误与执行顺序，确保脚…

程序猿
2025年12月23日
0000
好文分享

html如何滑动_实现HTML页面或元素滑动效果【效果】

可通过CSS scroll-behavior实现平滑锚点跳转，JavaScript scrollTo精确控制滚动位置，CSS transform模拟高性能滑动动画，或使用Swiper等第三方库实现触摸拖拽、循环播放等高级交互功能。如果您希望在网页中实现页面或特定元素的滑动效果，可以通过CSS和Ja…

程序猿
2025年12月23日
0000
好文分享

html5如何建立站点_HTML5站点建立步骤与网站搭建技巧【指南】

HTML5网站搭建需五步：一、建my-website目录及css/js/images子目录，含index.html；二、写标准HTML5骨架，含DOCTYPE、lang、meta、语义化标签；三、外链CSS与defer/async脚本；四、用http-server启本地服务；五、用email/num…

程序猿
2025年12月23日
0000