异常数据检测常用方法包括z-score和iqr。1. z-score适用于正态分布数据,通过计算数据点与均值相差多少个标准差,绝对值大于3则判定为异常;2. iqr适用于非正态分布数据,通过计算四分位距并设定上下界(q1-1.5×iqr和q3+1.5×iqr),超出范围的数值为异常值。选择方法应根据数据分布情况决定,z-score更直观但对分布敏感,iqr更稳健且通用,可结合可视化手段提升判断准确性。

检测异常数据是数据分析中一个非常关键的步骤,尤其是在做数据清洗或建模前。Python 中常用的两种方法是 Z-score 和 IQR(四分位距)算法。这两种方法各有适用场景,也都有各自的优缺点。

下面我们就来详细说说它们分别是怎么工作的,以及在实际中该如何使用。
什么是异常值?为什么需要检测?
异常值指的是与整体数据分布明显偏离的数值,可能是由于录入错误、设备故障、极端情况等原因造成的。如果不加以处理,可能会对后续分析造成误导,比如影响模型训练效果、统计结论偏差等。
立即学习“Python免费学习笔记(深入)”;

所以,在进行任何分析之前,先识别并处理这些“离群点”是非常有必要的。
Z-score 方法:适用于正态分布的数据
Z-score 的核心思想是看某个数据点距离均值有多少个标准差。一般来说,如果一个值的 Z-score 绝对值大于3,就认为它是一个异常值。

公式如下:
Z = (x - μ) / σ
其中:
x 是当前数据点μ 是数据的平均值σ 是数据的标准差
实现步骤:
计算数据集的平均值和标准差对每个数据点计算 Z-score设置阈值(通常是 3 或 -3)筛选出超出阈值的数据点作为异常值
示例代码:
import numpy as npdata = np.array([1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 6, 100]) # 假设100是异常值mean = np.mean(data)std = np.std(data)z_scores = [(x - mean) / std for x in data]outliers = [x for x, z in zip(data, z_scores) if abs(z) > 3]
注意:Z-score 对数据分布敏感,更适合近似正态分布的情况。如果你的数据偏态严重或者有大量极端值,这个方法可能不太靠谱。
IQR 方法:适用于非正态分布数据
IQR(Interquartile Range)即四分位距,是上四分位数(Q3)与下四分位数(Q1)之间的差值。这种方法不依赖于数据是否服从正态分布,因此更通用一些。
公式如下:
IQR = Q3 - Q1
异常值判断范围为:
下界:Q1 - 1.5 * IQR上界:Q3 + 1.5 * IQR
落在这个区间之外的值就是异常值。
实现步骤:
找到 Q1 和 Q3计算 IQR定义上下限筛选超出范围的数据点
示例代码:
import numpy as npdata = np.array([1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 6, 100])Q1 = np.percentile(data, 25)Q3 = np.percentile(data, 75)IQR = Q3 - Q1lower_bound = Q1 - 1.5 * IQRupper_bound = Q3 + 1.5 * IQRoutliers = [x for x in data if x upper_bound]
这种方法在可视化时也常用于箱线图(boxplot),是探索性数据分析中的常见工具。
怎么选择 Z-score 还是 IQR?
这取决于你的数据分布情况和分析目标:
如果数据大致符合正态分布,用 Z-score 更直观;如果数据分布偏斜或者你不确定分布类型,IQR 更稳健;可以同时尝试两种方法,对比结果,有助于发现更多潜在问题。
此外,也可以结合可视化手段(如散点图、箱线图)辅助判断。
基本上就这些。两种方法都不复杂,但在实际应用中容易忽略细节,比如数据标准化、边界定义方式等。掌握好这些小技巧,能让你在数据预处理阶段少走不少弯路。
以上就是Python如何检测异常数据—Z-score/IQR算法详解的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1363934.html
微信扫一扫
支付宝扫一扫