> 正态性检验 基于 Shapiro-Wilk(夏皮罗-威尔克检验)、Kolmogorov-Smirnov(柯尔莫哥洛夫-斯米尔诺夫检验)、Anderson-Darling(安德森-达林检验)等正态性检验方法,对样本数据是否服从正态分布进行统计推断,为后续参数检验或建模方法的选择提供前提依据。 ## Shapiro-Wilk(夏皮罗-威尔克检验) Shapiro-Wilk 检验的核心思路是把样本按大小排序后,用一套专门系数去衡量这些次序统计量与理论正态分位点之间的线性相关程度。如果散点几乎落在一条直线上,就说明数据和正态分布非常吻合;只要出现轻微偏斜、厚尾或者一两个异常值,直线就会弯曲,检验统计量迅速下降,从而在小样本环境下也能高效地捕捉到非正态信号。由于它对各种常见偏离模式都很敏感,学术界普遍把它视为样本量不超过五十时的首选正态性判别工具。 ## Kolmogorov-Smirnov(柯尔莫哥洛夫-斯米尔诺夫检验) Kolmogorov-Smirnov 检验通过把样本的经验分布函数与一条完全确定参数的正态分布曲线全程重叠,寻找两者在垂直方向上的最大差距来判断拟合优劣。这个最大距离越大,说明样本整体越不像正态。其优点在于概念直观、可以一眼看出差异出现在哪个区间,并且不仅限于正态性,还能推广到任意两个分布之间的比较;不过当分布参数需要从样本估计时,必须使用 Lilliefors 修正临界值,否则容易过于宽松,而且它的注意力主要集中在分布中部,对两端的偏离相对迟钝,因此在尾部存在异常值或轻微双峰的情况下,检验功效会低于其他专门针对正态性的方法。 ## Anderson-Darling(安德森-达林检验) Anderson-Darling 检验同样对比经验分布与理论正态曲线,但在计算整体差异时给尾部施加了更高的权重,使得分布两端即使只有轻微偏离也会被迅速放大。这种设计让它对偏斜、双峰、厚尾以及个别极端值极其敏感,特别适合需要重点监控尾部行为的场景,例如质量管理和金融风险评估。由于统计量对异常值反应强烈,在实际应用中建议先对数据进行异常值检查;当样本量处于二十到两百之间时,它在常见正态性检验中通常拥有最高的检验力,能够最早发现隐蔽的非正态特征。