Python中高效选取NaN附近有效数据的策略

程序猿 • 2025年12月14日 20:00:32 • 好文分享 • 阅读 0

本教程旨在解决在Python数据处理中，如何高效地从包含`NaN`值的序列中，为每个`NaN`点智能地选取其前后指定数量的有效数值。文章将深入探讨一种结合`pandas`和`numpy`库的巧妙方法，利用布尔掩码、前向填充（`ffill`）、滑动窗口视图（`sliding_window_view`）以及数据框连接（`join`）等功能，实现复杂条件下的精确数据筛选与对齐，尤其适用于处理大规模数据集时的性能需求。

1. 问题背景与挑战

在数据分析和预处理过程中，我们经常会遇到含有缺失值（NaN）的数值型数据序列。一个常见的需求是，当遇到一个NaN值时，我们需要从其周围提取固定数量的“有效”数值（即非NaN值）作为上下文信息。这个任务的复杂性在于以下几点：

动态窗口大小： 选取的有效数值数量是固定的，例如20个，但这些数值可能并非紧邻NaN值，因为中间可能夹杂其他NaN。边缘情况处理： 当NaN值位于序列的开头或结尾附近时，其一侧可能没有足够的有效数值。此时，需要从另一侧补充选取，以达到总数要求。效率： 对于大型数据集，使用循环遍历每个NaN并手动搜索有效邻居的方法效率低下，需要更优化的向量化解决方案。

传统的做法可能涉及筛选出NaN值，保留原始索引，然后进行复杂的索引映射和数据提取，这通常会导致代码冗长且难以维护。因此，寻找一种简洁、高效且健壮的方法至关重要。

2. 核心概念与工具

解决此类问题，pandas和numpy提供了强大的工具集，它们能够以向量化的方式处理数据，大大提高效率。本教程将主要利用以下核心功能：

立即学习“Python免费学习笔记（深入）”；

pandas.Series.notna(): 用于生成一个布尔掩码，标识序列中哪些元素不是NaN。pandas.Series.ffill() (Forward Fill): 对序列中的NaN值进行前向填充，即用前一个有效值填充当前的NaN。这在处理索引对齐时非常有用，可以将NaN位置映射到最近的前一个有效值的索引。numpy.lib.stride_tricks.sliding_window_view: numpy的一个高级功能，可以高效地在数组上创建滑动窗口视图，而无需复制数据。这对于从连续的有效数据中提取固定大小的子序列非常有用。pandas.DataFrame.join(): 用于根据索引将两个DataFrame连接起来，实现数据的合并。pandas.DataFrame.mask(): 根据布尔条件替换DataFrame中的值。

3. 解决方案详解

我们将通过一个具体的示例来演示如何结合上述工具，实现NaN附近有效数据的智能选取。假设我们有一个包含NaN的pandas Series，目标是为每个NaN值，选取其前面B个和后面A个有效数值。

3.1 示例数据准备

首先，我们创建一个示例DataFrame：

import pandas as pdimport numpy as npfrom numpy.lib.stride_tricks import sliding_window_view as swvdata = {    'col': [np.nan, 0.0, 1.0, 2.0, np.nan, np.nan, 3.0, 4.0, 5.0, np.nan, 6.0, np.nan, 7.0, 8.0, 9.0, np.nan, 10.0]}df = pd.DataFrame(data)print("原始DataFrame:")print(df)

输出:

原始DataFrame:     col0    NaN1    0.02    1.03    2.04    NaN5    NaN6    3.07    4.08    5.09    NaN10   6.011   NaN12   7.013   8.014   9.015   NaN16  10.0

3.2 定义选取参数

我们设定在NaN之前选取B个有效值，之后选取A个有效值。

B = 2  # 在NaN之前选取的非NaN值数量A = 3  # 在NaN之后选取的非NaN值数量

3.3 提取列并处理索引

为了确保操作的简便性和准确性，我们将目标列提取为Series，并重置其索引为默认的整数范围索引。

# 提取目标列为Series，并确保为范围索引s = df['col'].reset_index(drop=True)

3.4 识别有效数据与索引映射

这是解决方案中的一个关键步骤。我们首先创建一个布尔掩码m来标识所有非NaN的行。然后，我们利用ffill()将NaN位置的索引映射到它前面最近的有效值的索引。

# 识别非NaN行m = s.notna()# 掩盖NaN的索引，并进行前向填充。# 这将使得NaN位置的索引被其前面最近的非NaN值的索引所填充。idx = s.index.to_series().where(m).ffill()

例如，如果s[4]是NaN，而s[3]是有效值，那么idx[4]的值将变为3.0。

3.5 创建滑动窗口视图

接下来，我们只对原始Series中的有效数据（s[m]）创建滑动窗口视图。每个窗口的大小为A+B。sliding_window_view会生成一个多维数组，其中每一行代表一个窗口。

# 从非NaN值中创建滑动窗口视图# 窗口大小为A+B，即总共选取的有效值数量tmp = pd.DataFrame(swv(s[m], A + B))

为了将这些窗口与原始DataFrame中的NaN位置对齐，我们需要为tmp DataFrame生成一个合适的索引。这个索引的生成方式是：从idx中筛选出有效值对应的索引（idx[m]），然后进行B-1位的负向偏移。这样做的目的是将滑动窗口的起始点与它所代表的“中心”NaN值对齐。

# 为tmp DataFrame设置索引，使其与原始NaN位置对齐# idx[m]是所有非NaN值的原始索引，shift(-B+1)是为了将窗口的起始点与NaN的"中心"对齐# 比如B=2，shift(-1)意味着窗口的第一个元素对应原始NaN前一个有效值的索引tmp.index = idx[m].shift(-B + 1)[:m.sum() - (A + B) + 1]

3.6 重建索引并连接

现在，tmp DataFrame包含了所有可能被选取的有效值窗口，其索引已经经过特殊处理。我们需要将其重新索引到我们之前生成的ffill后的idx上，然后将其索引设置为原始DataFrame的索引，最后连接回原始DataFrame。

# 使用ffill后的索引重新索引tmp，然后设置回原始DataFrame的索引# 这样，原始DataFrame中每个NaN的行，都会根据其ffill后的索引，获取到tmp中对应的窗口数据aligned_windows = tmp.reindex(idx).set_axis(df.index)# 将结果连接回原始DataFrame# 使用mask(m)确保只有原始col为NaN的行才显示新加入的窗口数据out = df.join(aligned_windows.mask(m))

mask(m)这一步非常重要，它会将aligned_windows中对应原始col不为NaN的行（即m为True的行）的值设置为NaN。这样，最终输出中，只有原始col为NaN的行才会显示其选取的邻近有效值。

3.7 完整示例代码

import pandas as pdimport numpy as npfrom numpy.lib.stride_tricks import sliding_window_view as swv# 示例数据data = {    'col': [np.nan, 0.0, 1.0, 2.0, np.nan, np.nan, 3.0, 4.0, 5.0, np.nan, 6.0, np.nan, 7.0, 8.0, 9.0, np.nan, 10.0]}df = pd.DataFrame(data)# 定义选取参数B = 2  # 在NaN之前选取的非NaN值数量A = 3  # 在NaN之后选取的非NaN值数量# 1. 提取列为Series，并确保为范围索引s = df['col'].reset_index(drop=True)# 2. 识别非NaN行m = s.notna()# 3. 掩盖NaN的索引，并进行前向填充# 这将使得NaN位置的索引被其前面最近的非NaN值的索引所填充idx = s.index

以上就是Python中高效选取NaN附近有效数据的策略的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1378681.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

优化Python Web API调用性能：多进程为何可能更慢及其解决方案

上一篇 2025年12月14日 20:00:29

Flask与SQLAlchemy：有效防止数据重复插入的策略

下一篇 2025年12月14日 20:00:40

好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
3000
好文分享

CSS元素设置em和transition后，为何载入页面无放大效果？

css元素设置em和transition后，为何载入无放大效果很多开发者在设置了em和transition后，却发现元素载入页面时无放大效果。本文将解答这一问题。原问题：在视频演示中，将元素设置如下，载入页面会有放大效果。然而，在个人尝试中，并未出现该效果。这是由于macos和windows系统…

程序猿
2025年12月24日
3000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
3000
好文分享

如何用HTML/JS实现Windows 10设置界面鼠标移动探照灯效果？

Win10设置界面中的鼠标移动探照灯效果实现指南想要在前端开发中实现类似于Windows 10设置界面的鼠标移动探照灯效果，有两种解决方案：CSS 和 HTML/JS 组合。 CSS 实现不幸的是，仅使用CSS无法完全实现该效果。立即学习“前端免费学习笔记（深入）”； HTML/JS 实现要…

程序猿
2025年12月24日
1000
好文分享

如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果？

如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果，可以通过以下途径： CSS 解决方案 DEMO 1: Windows 10 网格悬停效果：https://codepen.io/tr4553r7/pe…

程序猿
2025年12月24日
1000
好文分享

如何用前端技术实现Windows 10 设置界面鼠标移动时的探照灯效果？

探索在前端中实现 Windows 10 设置界面鼠标移动时的探照灯效果在前端开发中，鼠标悬停在元素上时需要呈现类似于 Windows 10 设置界面所展示的探照灯效果，这其中涉及到了元素外围显示光圈效果的技术实现。 CSS 实现虽然 CSS 无法直接实现探照灯效果，但可以通过以下技巧营造出类似效…

程序猿
2025年12月24日
1000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
3000
好文分享

苹果浏览器网页背景图色差问题：如何解决背景图不一致？

网页背景图在苹果浏览器上出现色差一位用户在使用苹果浏览器访问网页时遇到一个问题，网页上方的背景图比底部的背景图明显更亮。这个问题的原因很可能是背景图没有正确配置 background-size 属性。在 windows 浏览器中，背景图可能可以自动填满整个容器，但在苹果浏览器中可能需要显式设置 …

程序猿
2025年12月24日
5000
好文分享

苹果浏览器网页背景图像为何色差？

网页背景图像在苹果浏览器的色差问题在不同浏览器中，网站的背景图像有时会出现色差。例如，在 Windows 浏览器中显示正常的上层背景图，在苹果浏览器中却比下层背景图更亮。问题原因出现此问题的原因可能是背景图像未正确设置 background-size 属性。解决方案为确保背景图像在不同浏览…

程序猿
2025年12月24日
4000
好文分享

苹果电脑浏览器背景图亮度差异：为什么网页上下部背景图色差明显？

背景图在苹果电脑浏览器上亮度差异问题描述：在网页设计中，希望上部元素的背景图与页面底部的背景图完全对齐。而在 Windows 中使用浏览器时，该效果可以正常实现。然而，在苹果电脑的浏览器中却出现了明显的色差。原因分析：如果您已经排除屏幕分辨率差异的可能性，那么很可能是背景图的 backgro…

程序猿
2025年12月24日
1000
好文分享

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
3000
好文分享

如何在 VS Code 中解决折叠代码复制问题？

解决 VS Code 折叠代码复制问题在 VS Code 中使用折叠功能可以帮助组织长代码，但使用复制功能时，可能会遇到只复制可见部分的问题。以下是如何解决此问题：当代码被折叠时，可以使用以下简单操作复制整个折叠代码：按下 Ctrl + C (Windows/Linux) 或 Cmd + C …

程序猿
2025年12月24日
1000
好文分享

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
3000
好文分享

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
1000
好文分享

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
好文分享

css怎么设置超出显示省略号

css设置超出显示省略号的方法：1、使用“overflow:hidden;”语句把超出的部分隐藏起来；2、使用“text-overflow:ellipsis;”语句在文本溢出包含元素时，显示省略符号来代表被隐藏的部分。本教程操作环境：windows7系统、CSS3&&HTML5版、…

程序猿
2025年12月24日
2000
好文分享

如何使用纯CSS实现Windows启动界面的动画效果

本篇文章给大家带来的内容是关于如何使用纯css实现windows启动界面的动画效果，有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。效果预览源代码下载 https://github.com/comehope/front-end-daily-challenges 代码解读定义 d…

程序猿
2025年12月24日
1000
好文分享

响应式HTML5按钮适配不同屏幕方法【方法】

实现响应式HTML5按钮需五种方法：一、CSS媒体查询按max-width断点调整样式；二、用rem/vw等相对单位替代px；三、Flexbox控制容器与按钮伸缩；四、CSS变量配合requestAnimationFrame优化的JS动态适配；五、Tailwind等框架的响应式工具类。如果您希望H…

程序猿
2025年12月23日
1000
好文分享

html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

HTML5无法直接导出video标签内容，需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制；FFmpeg.wasm支持MP4等格式及精细编码控制；服务端方案适合高负载场景。如果您希望在网页…

程序猿
2025年12月23日
4000
好文分享

如何查看编写的html_查看自己编写的HTML文件效果【效果】

要查看HTML文件的浏览器渲染效果，需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。如果您编写了HTML代码，但无法直观看到其在浏览器中的实际渲染效果，则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

程序猿
2025年12月23日
4000