查找数据集中的异常值


异常值是不符合其余数字模式的数据点。它们是数据集中的极高或极低值。

查找异常值的一个简单方法是检查数据集中的数字。我们将看到大多数数字都聚集在一个范围内,并且某些数字与其余数字相比太低或太高。这些数字被称为异常值。

异常值的其他定义

与其他数据明显分开的数据点。异常值的一个定义是低于第一四分位数或高于第三四分位数超过 1.5 个四分位数 (IQR) 的任何数据点。四分位数间距 (IQR) 是数据集的第三个四分位数和第一个四分位数之间的差值。

查找数据 0、2、5、6、9、12、35 的异常值。

解决方案

对于给定的数据集,我们有以下五数总结。

最小值 = 0

第一个四分位数 = 2

中位数 = 6

第三个四分位数 = 12

最大值 = 35

IQR = 12 – 2 = 10,因此 1.5·IQR = 15。

为了确定是否存在异常值,我们必须考虑超出四分位数 1.5·IQR 或 15 的数字。

第一个四分位数 – 1.5·IQR = 2 – 15 = –13

第三个四分位数 + 1.5·IQR = 12 + 15 = 27

由于 35 不在 –13 到 27 的区间内,因此 35 是该数据集中的异常值。

找出下面给定数据集中的异常值。

28, 26, 29, 30, 81, 32, 37

解决方案

步骤1:

与给定集合中其他数字不同的数据是 81

第2步:

所以该数据集的异常值是 81

找出下面给定数据集中的异常值。

16, 14, 3, 12, 15, 17, 22, 15, 52

解决方案

步骤1:

与给定集合中其他数字不同的数据是 52

第2步:

所以该数据集的异常值是 52