如何使用Python实现基于距离的异常检测？kNN算法

程序猿 • 2025年12月14日 04:23:34 • 好文分享 • 阅读 0

使用knn进行异常检测的核心思想是基于数据点与其邻居的距离判断其是否异常，具体流程包括数据准备、计算距离、确定异常分数、设定阈值并识别异常。1. 数据准备阶段生成正常与异常数据并进行标准化处理；2. 使用nearestneighbors计算每个点到其k个最近邻居的距离；3. 用第k个最近邻居的距离作为异常分数；4. 通过统计方法设定阈值，识别出距离超过阈值的点为异常。k值的选择直接影响模型敏感度，小k值更敏感但易误报，大k值更宽容但可能漏报。局限包括计算成本高、高维数据下距离失效、数据密度不均影响阈值设定。优化方法包括使用近似最近邻算法提升性能、降维缓解维度灾难、标准化特征尺度、集成多模型提升鲁棒性，或改用lof等处理密度不均的算法。

基于距离的异常检测，尤其是使用kNN算法，核心思想其实挺直观的：一个数据点如果离它的“邻居们”都特别远，那它就很有可能是个异类。我们通过计算每个点到其第k个最近邻居的距离（或者到k个最近邻居的平均距离），然后设定一个阈值，超过这个阈值的点就被标记为异常。

解决方案

要使用Python实现基于kNN的异常检测，我们通常会用到scikit-learn库。整个流程可以概括为：数据准备、计算距离、确定异常分数、设定阈值并识别异常。

先说数据准备，为了演示方便，我通常会生成一些带有明显异常点的人造数据。这样，我们能清晰地看到算法的效果。

立即学习“Python免费学习笔记（深入）”；

import numpy as npimport matplotlib.pyplot as pltfrom sklearn.neighbors import NearestNeighborsfrom sklearn.preprocessing import StandardScaler# 1. 模拟数据：一些正常点和一些异常点np.random.seed(42)# 正常数据群1X_normal_1 = np.random.randn(100, 2) * 0.5 + np.array([2, 2])# 正常数据群2X_normal_2 = np.random.randn(80, 2) * 0.7 + np.array([-2, -2])# 异常点X_outliers = np.random.uniform(low=-6, high=6, size=(10, 2))X = np.vstack([X_normal_1, X_normal_2, X_outliers])# 数据标准化，这步很关键，特别是当特征的量纲差异很大时scaler = StandardScaler()X_scaled = scaler.fit_transform(X)# 2. 使用NearestNeighbors计算距离# kNN算法，我们关注每个点到其第k个最近邻居的距离。# 这里选择k=5，意味着我们看一个点周围5个邻居的情况。n_neighbors = 5knn = NearestNeighbors(n_neighbors=n_neighbors)knn.fit(X_scaled)# distances_k_neighbors[i][k-1] 就是点i到其第k个最近邻居的距离distances, indices = knn.kneighbors(X_scaled)# 3. 确定异常分数# 这里我们用每个点到其第k个最近邻居的距离作为异常分数。# distances数组是按距离从小到大排序的，所以distances[:, -1]就是到第k个邻居的距离。anomaly_scores = distances[:, -1]# 4. 设定阈值并识别异常# 阈值的设定有很多方法，最简单的是基于统计学（如均值+标准差的倍数），# 或者直接根据异常点的比例来选择一个分位数。# 比如，我们假设最远的5%是异常点。threshold_percentile = 95threshold = np.percentile(anomaly_scores, threshold_percentile)# 识别异常点is_anomaly = anomaly_scores > threshold# 5. 可视化结果plt.figure(figsize=(10, 7))plt.scatter(X_scaled[~is_anomaly, 0], X_scaled[~is_anomaly, 1], label='Normal Points', alpha=0.7, s=50)plt.scatter(X_scaled[is_anomaly, 0], X_scaled[is_anomaly, 1], color='red', label='Anomalies', s=100, marker='X')plt.title(f'kNN Anomaly Detection (k={n_neighbors}, Threshold={threshold:.2f})')plt.xlabel('Feature 1 (Scaled)')plt.ylabel('Feature 2 (Scaled)')plt.legend()plt.grid(True, linestyle='--', alpha=0.6)plt.show()print(f"识别出的异常点数量: {np.sum(is_anomaly)}")print(f"异常点阈值 (到第{n_neighbors}个邻居的距离): {threshold:.2f}")

这段代码的核心逻辑在于NearestNeighbors的使用和anomaly_scores的计算。标准化数据是常识，因为距离计算对特征的尺度很敏感。阈值的选择则是个艺术活儿，没有绝对的对错，更多是根据业务场景和对异常的容忍度来调整。

选择合适的K值对kNN异常检测有何影响？

这事儿挺玄乎的，选择K值对kNN异常检测结果的影响确实非常大，甚至可以说，它直接决定了你的模型对“异常”的敏感度。我个人觉得，这里没有一个放之四海而皆准的“黄金法则”，更多的是一种权衡和经验。

如果你选择了一个很小的K值，比如K=1或K=2，模型会变得非常敏感。一个点只要稍微偏离其最近的少数几个邻居，就可能被标记为异常。这在某种程度上是好事，因为它能捕捉到非常细微的异常。但问题是，它也可能把一些正常的、只是处于数据稀疏区域的点误判为异常，或者对数据中的噪声过于敏感。想象一下，一个数据点恰好落在一个正常数据簇的边缘，它可能离最近的几个点有点远，但它本质上还是“正常”的，这种情况下小K值就可能误报。

反过来，如果K值取得比较大，模型就会变得更“宽容”。它会考虑一个点周围更多的邻居，只有当这个点离它周围一大群邻居都非常远时，才会被认为是异常。这能有效降低误报率，尤其是在数据本身存在一些局部稀疏区域时。但缺点是，它可能会漏掉一些“不那么突出”的异常点。如果一个真正的异常点恰好处于一个相对密集的区域边缘，或者它周围有几个正常的点，大K值可能会因为“平均”了这些距离而忽略它。

我通常的经验是，先从一个直觉的数开始，比如5到10，然后看看效果。如果发现误报太多，就适当增大K；如果觉得漏报了，就适当减小K。在有标注数据的情况下，可以通过交叉验证来寻找最优K。但大多数时候，异常检测是没有足够标注数据的，所以，可视化和领域知识的介入就显得尤为重要了。

kNN异常检测的局限性体现在哪里？

说实话，kNN异常检测虽然直观易懂，但在实际应用中，它并不是万能的，尤其是在数据量爆炸或者维度高得吓人的时候，你会感觉到它的吃力。

一个最明显的局限就是计算成本。对于大规模数据集，计算每个点到所有其他点的距离是非常耗时的。它的时间复杂度通常是O(N^2 * D)（N是数据点数量，D是维度），或者在优化后是O(N log N * D)，这对于数百万甚至上亿的数据点来说，简直是噩梦。我遇到过在几百万行数据上跑kNN，光是kneighbors这一步就能跑上几个小时甚至更久，那体验真是让人抓狂。

再来就是高维数据的问题，也就是所谓的“维度灾难”。在非常高的维度空间里，数据点之间的距离会变得越来越难以区分，所有点都趋向于“等距”。这意味着，欧氏距离（或其他常见的距离度量）在高维空间中可能失去其区分异常点的能力。一个点可能在某个维度上是异常的，但在其他几十个甚至几百个维度上都是正常的，最终它的总距离可能看起来并不那么异常。距离度量失效，是高维数据下kNN面临的巨大挑战。

还有就是数据密度不均的问题。如果你的数据集中存在多个密度差异很大的簇，那么一个全局的距离阈值可能就不适用了。一个点在稀疏区域可能是正常的，但在密集区域同样距离的点就可能是异常。kNN本身并没有很好地处理这种局部密度差异的能力。这也是为什么后来出现了像LOF（Local Outlier Factor）这类算法，它们更关注局部密度。

最后，阈值的设定也是个痛点。很多时候，我们并没有明确的“异常”标签，只能凭经验或者通过对异常分数分布的观察来设定一个阈值。这个阈值设高了，可能漏掉真正的异常；设低了，又可能误报一堆正常点。这使得kNN在没有先验知识或标注数据时，结果解释起来总有点模棱两可。

如何优化kNN异常检测的性能和效果？

既然kNN有这些局限，那我们肯定不能坐以待毙。优化它的性能和效果，其实有很多路子可以走，而且很多时候，预处理和选择合适的工具比算法本身更重要。

首先，针对计算性能，最直接的办法就是近似最近邻（Approximate Nearest Neighbors, ANN）算法。别想着每次都去计算精确的最近邻了，那太慢了。有很多库比如Annoy、FAISS（Facebook AI Similarity Search）或者NMSLIB，它们能在大规模数据集上快速地找到近似的最近邻。虽然牺牲了一点点精度，但换来的是数量级的速度提升，这在实际工程中是完全可以接受的。我经常在处理亿级向量数据时用到FAISS，那速度简直是救命稻草。

其次，对于高维数据，降维是必不可少的一步。在应用kNN之前，可以考虑使用PCA（主成分分析）、t-SNE或者UMAP等技术来降低数据的维度。这不仅能缓解“维度灾难”的影响，让距离度量重新变得有意义，还能进一步提高计算效率。当然，降维会损失信息，所以需要在信息损失和效果提升之间找到一个平衡点。

再者，特征缩放是基本操作，但经常被新手忽略。确保所有特征都在相似的尺度上（比如通过StandardScaler或MinMaxScaler进行标准化），否则那些数值范围大的特征会在距离计算中占据主导地位，掩盖了其他特征的贡献。这虽然不直接优化性能，但能显著提升检测效果的合理性。

然后，考虑集成方法。可以尝试运行多个kNN模型，每个模型使用不同的K值，或者在不同的特征子集上运行。然后将这些模型的异常分数进行组合（比如取平均或加权平均），这样可以得到一个更鲁棒的异常分数。这种“集百家之长”的做法，往往能带来意想不到的好效果。

最后，有时候与其死磕kNN，不如看看它那些“亲戚”们。如果你的数据存在明显的密度不均问题，那么像LOF（Local Outlier Factor）这样的算法可能更适合你。LOF也是基于距离的，但它通过比较一个点与其邻居的局部密度，来判断该点是否异常，这能更好地处理不同密度区域的异常检测。虽然它不是严格意义上的kNN，但它解决了kNN在密度不均场景下的痛点，可以作为kNN的有力补充或替代方案。选择合适的算法，永远是解决问题的关键一步。

以上就是如何使用Python实现基于距离的异常检测？kNN算法的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1365040.html

ai facebook igs python python数据处理 red 为什么工具编程语言

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Pandas DataFrame 分组聚合与自定义顺序字符串合并教程

上一篇 2025年12月14日 04:23:25

如何用Python实现数据插值？interpolate方法

下一篇 2025年12月14日 04:23:38

好文分享

CSS mask属性无法获取图片：为什么我的图片不见了？

CSS mask属性无法获取图片在使用CSS mask属性时，可能会遇到无法获取指定照片的情况。这个问题通常表现为：网络面板中没有请求图片：尽管CSS代码中指定了图片地址，但网络面板中却找不到图片的请求记录。问题原因：此问题的可能原因是浏览器的兼容性问题。某些较旧版本的浏览器可能不支持CSS…

程序猿
2025年12月24日
9000
好文分享

Uniapp 中如何不拉伸不裁剪地展示图片？

灵活展示图片：如何不拉伸不裁剪在界面设计中，常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。对于不同尺寸的图片，可以采用以下处理方式：极端宽高比：撑满屏幕宽度或高度，再等比缩放居中。非极端宽高比：居中显示，若能撑满则撑满。然而，如果需要不拉伸不…

程序猿
2025年12月24日
4000
好文分享

如何让小说网站控制台显示乱码，同时网页内容正常显示？

如何在不影响用户界面的情况下实现控制台乱码？当在小说网站上下载小说时，大家可能会遇到一个问题：网站上的文本在网页内正常显示，但是在控制台中却是乱码。如何实现此类操作，从而在不影响用户界面（UI）的情况下保持控制台乱码呢？答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体，并通过在客户端…

程序猿
2025年12月24日
8000
好文分享

如何在地图上轻松创建气泡信息框？

地图上气泡信息框的巧妙生成地图上气泡信息框是一种常用的交互功能，它简便易用，能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。利用地图库的原生功能大多数地图库，如高德地图，都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现：高德地图 JS API 参考文…

程序猿
2025年12月24日
4000
好文分享

如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画？

如何实现元素scrollleft变化时的平滑动画效果？在许多网页应用中，滚动容器的水平滚动条（scrollleft）需要频繁使用。为了让滚动动作更加自然，你希望给scrollleft的变化添加动画效果。解决方案：scroll-behavior 属性要实现scrollleft变化时的平滑动画效果…

程序猿
2025年12月24日
0000
好文分享

如何为滚动元素添加平滑过渡，使滚动条滑动时更自然流畅？

给滚动元素平滑过渡如何在滚动条属性（scrollleft）发生改变时为元素添加平滑的过渡效果？解决方案：scroll-behavior 属性为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码： click the button to slide right!…

程序猿
2025年12月24日
5000
为什么设置 `overflow: hidden` 会导致 `inline-block` 元素错位？

overflow 导致 inline-block 元素错位解析当多个 inline-block 元素并列排列时，可能会出现错位显示的问题。这通常是由于其中一个元素设置了 overflow 属性引起的。问题现象在不设置 overflow 属性时，元素按预期显示在同一水平线上：不设置 overf…

程序猿
2025年12月24日 • 好文分享
4000
好文分享

网页使用本地字体：为什么 CSS 代码中明明指定了“荆南麦圆体”，页面却仍然显示“微软雅黑”？

网页中使用本地字体本文将解答如何将本地安装字体应用到网页中，避免使用 src 属性直接引入字体文件。问题：想要在网页上使用已安装的“荆南麦圆体”字体，但 css 代码中将其置于第一位的“font-family”属性，页面仍显示“微软雅黑”字体。立即学习“前端免费学习笔记（深入）”；答案： …

程序猿
2025年12月24日
0000
好文分享

如何选择元素个数不固定的指定类名子元素？

灵活选择元素个数不固定的指定类名子元素在网页布局中，有时需要选择特定类名的子元素，但这些元素的数量并不固定。例如，下面这段 html 代码中，activebar 和 item 元素的数量均不固定： *n *n 如果需要选择第一个 item元素，可以使用 css 选择器 :nth-child()。该…

程序猿
2025年12月24日
2000
好文分享

使用 SVG 如何实现自定义宽度、间距和半径的虚线边框？

使用 svg 实现自定义虚线边框如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片，但是这种方法存在引入外部资源、性能低下的缺点。为了避免上述问题，可以使用 svg（可缩放矢量图形）来创建纯代码实现。一种方…

程序猿
2025年12月24日
1000
好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
2000
好文分享

如何让“元素跟随文本高度，而不是撑高父容器？

如何让元素跟随文本高度，而不是撑高父容器在页面布局中，经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中，父容器被较高的图片撑开，而文本的高度没有被考虑。本问答将提供纯css解决方案，让图片跟随文本高度，确保父容器的高度不会被图片影响。解决方法为了解决这个问题，需要将图片从文档流中脱离…

程序猿
2025年12月24日
0000
好文分享

为什么我的特定 DIV 在 Edge 浏览器中无法显示？

特定 DIV 无法显示：用户代理样式表的困扰当你在 Edge 浏览器中打开项目中的某个 div 时，却发现它无法正常显示，仔细检查样式后，发现是由用户代理样式表中的 display none 引起的。但你疑问的是，为什么会出现这样的样式表，而且只针对特定的 div？背后的原因用户代理样式表是由…

程序猿
2025年12月24日
2000
好文分享

inline-block元素错位了，是为什么？

inline-block元素错位背后的原因 inline-block元素是一种特殊类型的块级元素，它可以与其他元素行内排列。但是，在某些情况下，inline-block元素可能会出现错位显示的问题。错位的原因当inline-block元素设置了overflow:hidden属性时，它会影响元素的…

程序猿
2025年12月24日
0000
好文分享

为什么 CSS mask 属性未请求指定图片？

解决 css mask 属性未请求图片的问题在使用 css mask 属性时，指定了图片地址，但网络面板显示未请求获取该图片，这可能是由于浏览器兼容性问题造成的。问题如下代码所示：立即学习“前端免费学习笔记（深入）”； icon [data-icon=”cloud”] { –icon-cl…

程序猿
2025年12月24日
2000
好文分享

为什么使用 inline-block 元素时会错位？

inline-block 元素错位成因剖析在使用 inline-block 元素时，可能会遇到它们错位显示的问题。如代码 demo 所示，当设置了 overflow 属性时，a 标签就会错位下沉，而未设置时却不会。问题根源： overflow:hidden 属性影响了 inline-block …

程序猿
2025年12月24日
0000
好文分享

如何利用 CSS 选中激活标签并影响相邻元素的样式？

如何利用 css 选中激活标签并影响相邻元素？为了实现激活标签影响相邻元素的样式需求，可以通过 :has 选择器来实现。以下是如何具体操作：对于激活标签相邻后的元素，可以在 css 中使用以下代码进行设置： li:has(+li.active) { border-radius: 0 0 10px…

程序猿
2025年12月24日
1000
好文分享

为什么我的 CSS 元素放大效果无法正常生效？

css 设置元素放大效果的疑问解答原提问者在尝试给元素添加 10em 字体大小和过渡效果后，未能在进入页面时看到放大效果。探究发现，原提问者将 CSS 代码直接写在页面中，导致放大效果无法触发。解决办法如下：将 CSS 样式写在一个单独的文件中，并使用标签引入该样式文件。这个操作与原提问者观…

程序猿
2025年12月24日
0000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
2000
好文分享

为什么我的 em 和 transition 设置后元素没有放大？

元素设置 em 和 transition 后不放大一个 youtube 视频中展示了设置 em 和 transition 的元素在页面加载后会放大，但同样的代码在提问者电脑上没有达到预期效果。可能原因：问题在于 css 代码的位置。在视频中，css 被放置在单独的文件中并通过 link 标签引…

程序猿
2025年12月24日
1000