
绝对中位差,即Median Absolute Deviation(MAD),是对单变量数值型数据的样本偏差的一种鲁棒性测量[6],通常由下式计算而得:
其中在先验为正态分布的情况下,一般C选择1.4826,k选择3。MAD假定样本中间的50%区域均为正常样本,而异常样本落在两侧的50%区域内。当样本服从正态分布的情况下,MAD指标相较于标准差更能适应数据集中的异常值。对于标准差,使用的是数据到均值的距离平方,较大的偏差权重较大,异常值对结果影响不能忽视,而对MAD而言少量的异常值不会影响实验的结果,MAD算法对于数据的正态性有较高要求。
箱形图主要通过几个统计量来描述样本分布的离散程度以及对称性,包括:
Q0:最小值(Minimum)
Q1:下四分位数(Lower Quartile)
Q2:中位数(Median)
Q3:上四分位数(Upper Quartile)
Q4:最大值(Maximum)