Python如何处理带缺失值的分组运算？

程序猿 • 2025年12月14日 04:28:15 • 好文分享 • 阅读 0

pandas分组聚合默认跳过nan，可通过预处理或transform、apply实现精细化缺失值处理。1. 默认情况下，mean、sum等聚合函数会自动忽略nan，仅对非空值计算；2. 可在分组前用fillna填充缺失值，如填0、全局均值；3. 也可用dropna删除含缺失值的行；4. 利用transform可基于组内统计量（如组内均值）填充缺失值；5. apply支持更复杂的自定义逻辑，例如根据组内特征条件性填充。

Python处理带缺失值的分组运算，主要依靠Pandas库，它在设计上对缺失值（NaN）有很好的默认处理机制，但也提供了灵活的选项让我们介入，决定这些“空洞”是该被忽略、填充，还是以其他方式参与计算。核心思路是：理解Pandas聚合函数的默认行为，并在必要时，通过预处理（如填充或删除）或利用更高级的组内操作（如transform或apply）来定制处理逻辑。

解决方案

说起来，处理数据里的缺失值，就像是给一堆参差不齐的零件做分类和组装。你总会遇到一些“缺胳膊少腿”的，怎么办？扔掉？补齐？还是干脆忽略不计？在Python里，尤其是在Pandas的世界里，我们处理带缺失值的分组运算，其实就是在做这样的决策。

Pandas在进行分组聚合（比如求和、平均值、最大最小值）时，默认情况下会跳过NaN值。这通常是我们希望看到的行为，因为它避免了缺失值污染聚合结果。

立即学习“Python免费学习笔记（深入）”；

我们先来构建一个带有缺失值的DataFrame作为例子：

import pandas as pdimport numpy as np# 创建一个包含缺失值的DataFramedata = {    'category': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B'],    'value': [10, 20, np.nan, 25, 15, np.nan, 12, 30],    'other_value': [1, 2, 3, np.nan, 5, 6, 7, 8]}df = pd.DataFrame(data)print("原始DataFrame:n", df)# 1. 默认行为：聚合函数跳过NaNprint("n默认分组求平均（跳过NaN）:")print(df.groupby('category')['value'].mean())print("n默认分组求和（跳过NaN）:")print(df.groupby('category')['value'].sum())# 2. 在分组前进行缺失值填充 (fillna)# 假设我们想把NaN填充为0，再进行分组求和print("n分组前填充NaN为0，再求和:")df_filled_zero = df.fillna(0)print(df_filled_zero.groupby('category')['value'].sum())# 假设我们想把NaN填充为该列的平均值，再进行分组求平均# 注意：这里是全局平均值，不是组内平均值print("n分组前填充NaN为全局平均值，再求平均:")global_mean_value = df['value'].mean()df_filled_global_mean = df.fillna({'value': global_mean_value})print(df_filled_global_mean.groupby('category')['value'].mean())# 3. 在分组前删除包含NaN的行 (dropna)# 这会删除任何包含NaN的行，可能导致数据量大幅减少print("n分组前删除NaN行，再求平均:")df_dropped_na = df.dropna()print(df_dropped_na.groupby('category')['value'].mean())# 4. 利用transform进行组内缺失值填充# 这是一个非常常见的场景：用组内的平均值填充组内的NaNprint("n利用transform进行组内平均值填充，再求平均:")df_transformed = df.copy()df_transformed['value'] = df_transformed.groupby('category')['value'].transform(lambda x: x.fillna(x.mean()))print(df_transformed.groupby('category')['value'].mean())# 5. 利用apply进行更复杂的组内缺失值处理# 比如，如果组内缺失值超过一定比例，就填充为0，否则填充为组内中位数print("n利用apply进行更复杂的组内缺失值处理:")def custom_fillna(series):    if series.isnull().sum() / len(series) > 0.3: # 如果缺失值超过30%        return series.fillna(0)    else:        return series.fillna(series.median())df_applied = df.copy()df_applied['value'] = df_applied.groupby('category')['value'].apply(custom_fillna)print(df_applied.groupby('category')['value'].mean())

在分组运算前，我们应该如何预处理缺失值？

我个人经验里，很多时候数据清洗的第一步，就是和这些缺失值“打交道”。在进行分组运算之前，如何预处理缺失值，其实是个很关键的问题，它直接影响你最终分析结果的准确性和可信度。这不像表面看起来那么简单，不是一句fillna(0)就能解决所有问题的。

首先，你要搞清楚这些缺失值到底意味着什么。它们是随机缺失（MCAR）？还是因为某种原因导致的缺失（MAR）？甚至是根本无法观测到的缺失（MNAR）？不同的缺失机制，可能需要不同的处理策略。比如，如果一个用户的年龄缺失了，是因为他不想填，这和因为系统bug导致数据丢失，处理方式可能就大相径庭。

常见的预处理方法无非是两种大方向：填充（Imputation）和删除（Deletion）。

填充 (Imputation)：

全局填充：用整个数据集的平均值、中位数、众数来填充缺失值。这种方法简单粗暴，但可能会掩盖组与组之间的真实差异，尤其是在你的分组有显著特征差异时。比如，你不能用所有用户的平均收入来填充某个高收入群体的缺失收入。特定值填充：用0、-1或者其他有意义的常量来填充。这适用于缺失值本身就代表某种特定含义的情况，比如0代表“无销售”，而不是“未知销售额”。但要小心，这种填充可能会引入偏差，特别是对平均值、标准差这类统计量影响很大。基于模型填充：用更复杂的模型（如回归、KNN、MICE）来预测缺失值。这通常更准确，但也更复杂，计算成本更高。对于分组运算来说，这可能意味着你要先完成全局的复杂填充，再进行分组。

删除 (Deletion)：

行删除 (dropna())：如果某一行包含缺失值，就直接把整行删掉。这最简单，但如果缺失值很多，你可能会损失大量数据，导致样本量过小，影响统计推断的效力。我一般只在缺失值比例非常小，或者缺失值确实代表了无效数据时才会考虑这种方法。列删除：如果某一列的缺失值比例过高，或者这列对你的分析不重要，直接把列删掉。这比较少见于分组运算的预处理，更多是数据探索阶段的决策。

我的建议是，在分组前，先花点时间探索缺失值的分布和模式。看看每个组里缺失值的数量和比例，这会帮你决定是全局填充、组内填充，还是干脆删除。记住，没有一劳永逸的解决方案，最适合的才是最好的。

Pandas分组聚合函数对缺失值的默认行为是什么？

Pandas这小家伙挺聪明的，它知道你大概率不想让那些“空洞”搅乱你的计算。所以，在大多数情况下，Pandas的分组聚合函数（比如mean()、sum()、min()、max()、std()等）在执行计算时，会默认跳过（skip）缺失值（NaN）。这意味着它们只对组内非NaN的值进行计算。

举个例子，如果你有一个组，里面有[10, 20, NaN, 30]，当你对这个组求平均值时，Pandas会计算(10 + 20 + 30) / 3 = 20，而不是(10 + 20 + NaN + 30) / 4（这在数学上会是NaN）。这种行为是由聚合函数内部的skipna=True参数控制的，这也是它们的默认设置。

你可以通过将skipna参数显式设置为False来改变这种行为。如果你这样做，那么只要组内有任何一个NaN值，聚合结果就会变成NaN。

import pandas as pdimport numpy as npdf_test = pd.DataFrame({    'group': ['X', 'X', 'Y', 'Y'],    'value': [1, np.nan, 3, 4]})print("默认行为 (skipna=True):n", df_test.groupby('group')['value'].mean())# 结果：X组的平均值是1.0 (只计算了1)，Y组的平均值是3.5print("n显式设置 skipna=False:n", df_test.groupby('group')['value'].mean(skipna=False))# 结果：X组的平均值是NaN (因为有NaN)，Y组的平均值是3.5

需要特别注意的是count()函数。count()的目的是计算非NaN值的数量。所以，df.groupby('category')['value'].count()会统计每个组中非缺失值的数量，它本身就只关注非NaN值，因此skipna参数对它没有影响，或者说，它的行为总是等同于skipna=True。如果你想计算包括NaN在内的所有元素的数量，你应该使用size()，它会返回每个组的行数。

理解这个默认行为非常重要。它意味着在很多基本的分组聚合场景下，你甚至不需要额外写代码去处理NaN，Pandas已经帮你考虑到了。但聪明归聪明，它毕竟不是你肚子里的蛔虫，有些时候，你得明确告诉它你想怎么做，这就引出了我们如何更精细地控制缺失值处理。

如何利用`transform`和`apply`进行更精细的缺失值处理？

当你在分组运算中需要更高级、更灵活的缺失值处理时，transform和apply方法就显得尤为重要了。它们允许你深入到每个组的内部，执行自定义的逻辑，这比简单的fillna()或dropna()强大得多。

`transform`的应用

transform方法非常适合做“组内填充”。它的特点是，它会返回一个与原始DataFrame（或Series）相同索引和形状的结果，这使得你可以直接用它来更新原始数据中的列。最常见的用例就是用组内的统计量（比如组平均值、组中位数）来填充该组内的缺失值。

import pandas as pdimport numpy as npdf = pd.DataFrame({    'category': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B'],    'value': [10, 20, np.nan, 25, 15, np.nan, 12, 30],    'other_data': [1, 2, 3, 4, 5, 6, 7, 8]})print("原始DataFrame:n", df)# 场景：用每个组的平均值填充该组内的NaN# 步骤：# 1. 按照'category'分组# 2. 对'value'列应用transform# 3. transform内部的lambda函数对每个组的'value' Series进行fillna，填充值为该Series的mean()df_transformed_mean = df.copy()df_transformed_mean['value'] = df_transformed_mean.groupby('category')['value'].transform(lambda x: x.fillna(x.mean()))print("n用组内平均值填充NaN后的DataFrame:n", df_transformed_mean)# 验证填充效果，再次计算分组平均值，现在应该没有NaN了print("n填充后分组平均值:n", df_transformed_mean.groupby('category')['value'].mean())

这里transform(lambda x: x.fillna(x.mean()))的含义是：对于每个分组x（它是一个Series），将x中的NaN值用x自身的平均值来填充。这种方式保证了填充值是基于当前组的特性，而不是整个数据集的平均值，这在很多实际场景中更合理。

`apply`的应用

apply方法则更为通用和强大，它允许你对每个分组执行任意的Python函数。当你需要执行比transform更复杂的逻辑，或者需要返回一个不同于原始形状的结果时，apply是首选。在缺失值处理方面，这意味着你可以基于组内数据的其他特征进行条件性填充，或者执行多列的联合处理。

import pandas as pdimport numpy as npdf = pd.DataFrame({    'category': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B'],    'value': [10, 20, np.nan, 25, 15, np.nan, 12, 30],    'flag': [0, 1, 0, 1, 0, 1, 0, 1] # 假设有个标志位，影响填充策略})print("原始DataFrame:n", df)# 场景：如果组内'flag'列都是0，则用组内中位数填充'value'的NaN；否则用0填充。def custom_group_imputation(group):    # group是一个DataFrame，代表当前分组的所有行    if (group['flag'] == 0).all(): # 检查当前组的所有flag是否都为0        group['value'] = group['value'].fillna(group['value'].median())    else:        group['value'] = group['value'].fillna(0)    return groupdf_applied_custom = df.groupby('category').apply(custom_group_imputation)print("n用apply进行自定义填充后的DataFrame:n", df_applied_custom)# 验证填充效果print("n填充后分组平均值:n", df_applied_custom.groupby('category')['value'].mean())

apply的灵活性在于，它将整个分组（一个DataFrame）传递给你的函数，你可以在函数内部访问分组的所有列，并根据需要进行复杂的逻辑判断和操作。它的缺点是，通常比transform或内置聚合函数慢，因为它涉及更多的Python层面的循环和函数调用。因此，在能用transform解决问题时，优先考虑transform。当逻辑确实复杂到transform无法实现时，再考虑apply。

以上就是Python如何处理带缺失值的分组运算？的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1365177.html

python python数据处理数据丢失聚合函数

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Python如何实现基于规则的异常检测？自定义阈值法

上一篇 2025年12月14日 04:28:13

使用 TatSu 解析器时忽略方括号问题的解决

下一篇 2025年12月14日 04:28:23

好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
2000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
2000
好文分享

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
0000
好文分享

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
0000
好文分享

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
0000
好文分享

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
好文分享

深度剖析程序设计中必不可少的数据类型分类

【深入解析基本数据类型：掌握编程中必备的数据分类】在计算机编程中，数据是最为基础的元素之一。数据类型的选择对于编程语言的使用和程序的设计至关重要。在众多的数据类型中，基本数据类型是最基础、最常用的数据分类之一。通过深入解析基本数据类型，我们能够更好地掌握编程中必备的数据分类。一、基本数据类型的定…

程序猿
2025年12月24日
0000
好文分享

html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

HTML5无法直接导出video标签内容，需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制；FFmpeg.wasm支持MP4等格式及精细编码控制；服务端方案适合高负载场景。如果您希望在网页…

程序猿
2025年12月23日
3000
好文分享

如何查看编写的html_查看自己编写的HTML文件效果【效果】

要查看HTML文件的浏览器渲染效果，需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。如果您编写了HTML代码，但无法直观看到其在浏览器中的实际渲染效果，则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

程序猿
2025年12月23日
4000
好文分享

html5怎么打包运行_HT5用Webpack或Gulp打包后浏览器打开运行【打包】

应通过 HTTP 服务运行打包后的 HTML5 页面，而非双击打开：一、Webpack 配 webpack-dev-server 启动本地服务；二、Gulp 配 BrowserSync 提供实时重载；三、用 Python/Node.js 轻量 HTTP 工具托管 dist 目录；四、仅当必须双击运行…

程序猿
2025年12月23日
0000
好文分享

html5文件运行不出来怎么回事_析html5文件运行失败原因【解析】

首先检查文件扩展名和编码格式，确保为.html且使用UTF-8编码；接着验证HTML5结构完整性，包含及正确闭合的标签；然后排查外部资源路径是否正确，利用开发者工具查看404错误；排除浏览器兼容性问题，优先在现代浏览器中测试并避免未广泛支持的API；检查JavaScript语法错误与执行顺序，确保脚…

程序猿
2025年12月23日
0000
好文分享

html5怎么插入文档_HT5用object或iframe嵌入PDF/Word文档显示【插入】

可在HTML5中用iframe或object标签嵌入PDF，需设宽高及可访问路径；Word文档需借OneDrive等第三方服务代理渲染；须处理跨域限制并提供下载降级方案。如果您希望在HTML5页面中嵌入PDF或Word文档并直接显示，可以使用或标签实现。以下是几种可行的嵌入方法：一、使用ifra…

程序猿
2025年12月23日
2000
好文分享

如何运行html代码_html代码运行方法【步骤】

HTML代码需保存为.html文件并用浏览器打开才能正确显示；若含AJAX或外部资源则需本地服务器；临时测试可用开发者工具；在线编辑器支持即时预览。如果您编写了一段HTML代码，但无法在浏览器中正确显示效果，则可能是由于文件未以正确的格式保存或未通过浏览器打开。以下是运行HTML代码的具体步骤： …

程序猿
2025年12月23日
0000
好文分享

safari怎么打开html5_Safari浏览器直接输入html5链接自动渲染打开【打开】

Safari中正确渲染HTML5内容需采用file://协议、禁用本地限制、启用HTTP服务器或更新版本并开启实验性功能。具体包括：一、用file:///绝对路径打开本地HTML文件；二、勾选高级设置中的“显示开发菜单”并禁用本地文件限制；三、用Python启动本地HTTP服务，通过http://l…

程序猿
2025年12月23日
0000
好文分享

电脑html5怎么使用_电脑用新版浏览器打开HTML5文件直接渲染使用【使用】

需用支持HTML5的现代浏览器，通过file://协议双击打开、浏览器菜单打开、本地HTTP服务器（Python/Node.js）、VS Code Live Server插件或Visual Studio内置功能加载页面。如果您编写完成一个HTML5页面文件，希望在电脑上直接查看其渲染效果，则需确保…

程序猿
2025年12月23日
0000
好文分享

html5怎样插入带样式的docx_html5docx样式保留与展示方案【攻略】

无法直接嵌入.docx，需转换为HTML：一、前端用docxtemplater+html-docx-js生成内联样式HTML；二、后端用python-docx等转为语义化HTML+CSS；三、用Office Online Viewer iframe只读展示；四、用docx-preview库解析Blo…

程序猿
2025年12月23日
0000
好文分享

mac html5 怎么下载_mac浏览器直接打开html5文件无需额外下载【说明】

Mac上HTML5文件被下载而非渲染，需检查文件关联、浏览器安全限制、使用Python服务器托管、验证编码与MIME声明、禁用干扰扩展。如果您在 Mac 上使用浏览器打开 HTML5 文件时发现需要额外下载而非直接渲染，可能是由于文件关联设置、浏览器默认行为或文件路径问题导致。以下是解决此问题的步…

程序猿
2025年12月23日
2000
好文分享

如何快速开发html5_快速开发HTML5应用的方法【应用】

快速构建HTML5应用有五种方法：一、用HTML5 Boilerplate模板跳过基础搭建；二、用Vite等构建工具链实现自动化开发；三、集成Bootstrap等UI组件库减少样式与交互开发；四、借助CodePen等在线平台即时调试；五、封装Web Components实现模块复用。如果您希望在短…

程序猿
2025年12月23日
0000
好文分享

putty怎么运行html_putty连接环境运行html方法【教程】

1、可通过本地浏览器查看：使用SFTP下载HTML文件后双击用默认浏览器打开预览；2、启动轻量级Web服务器：在PuTTY中用Python命令python3 -m http.server 8000运行并本地访问服务器IP:8000查看；3、配置Apache：安装Apache2服务，将HTML文件放入…

程序猿
2025年12月23日
0000
好文分享

html5怎么指定路径_HTML5用相对或绝对路径指定图片视频等资源位置【指定】

HTML5资源无法显示通常因路径错误，解决方法包括：一、相对路径（如src=”images/logo.png”）；二、绝对路径（如src=”/media/video.mp4″）；三、data URL内联小资源；四、base标签统一基准路径；五、避免fi…

程序猿
2025年12月23日
0000