Kolmogorov Smirnov 检验

mac2025-01-06  5

       Kolmogorov-Smirnov检验

一个例子

假设你拿到下面的这100个观察值:

-0.16-0.68-0.32-0.850.89-2.280.630.410.150.741.30-0.130.80-0.750.28-1.000.14-1.38-0.04-0.25-0.171.290.47-1.230.21-0.040.07-0.080.32-0.170.13-1.940.780.19-0.12-0.190.76-1.48-0.010.20-1.97-0.373.08-0.400.800.011.32-0.472.29-0.26-1.52-0.06-1.021.060.601.151.92-0.06-0.190.670.290.580.022.18-0.04-0.13-0.79-1.28-1.41-0.230.65-0.26-0.17-1.53-1.69-1.600.09-1.110.300.71-0.88-0.030.56-3.682.400.620.52-1.250.85-0.09-0.23-1.160.22-1.680.50-0.35-0.35-0.33-0.240.25

想知道这些数据是否符合N(01)分布?

Kolmogorov-Smirnov

假设我们观察到数据,,...,,我们认为这些数据来自分布为p的数据集。

Kolmogorov-Smirnov检验的方法如下:

         : 数据来自分布为p的数据集

        否则:

        : 数据并非来自分布为p的数据集

累积分布函数与经验分布函数

随机变量的累计分布函数(CDF)的定义大家都知道:

                                                                     

累积分布函数唯一地刻画了概率分布。

给定一个观察数列,...,,经验分布函数就是那些值不大于的概率:

                                                             

如果将观察值排序,那么:

                                                                            

我们要比较数据的经验分布函数与零假设(什么是零假设,参考 零假设 )相关的累积分布函数(所希望的CDF)。

Kolmogorov-Smirnov统计是:

                                                               

实用方法

上面例子中的数据排序后,如下表所示:

                                    

然后计算经验分布函数:

                                  ,,....,

如果数据已排序,是最小值,是最大值,那么在这个例子里就有:

                                                                       

在这里,我们假设期望的分布函数是标准正态的,所以使用正态表。下表就是标准分布的已排序的数据表:

                               

对于每一个观察值计算。

计算两个表中各项之间的绝对差值。

                              

Kolmogorov Smirnov统计=0.092是(蓝色显示)最大值。

Kolmogorov Smirnov统计

我们计算了预期和观测分布函数之间的最大绝对距离,下图用绿色线条表示。

                                   

临界值

在95%级别下,临界值近似:

                                                                               

在这个例子中,由于n=100,因此。

由于0.092<0.136,因此我们接受零假设。

两个样本的Kolmogorow-Smirnov

给定两个样本,测试它们的分布是否相同。计算观测到的两个样本的累积分布函数,并计算它们的最大差值。

X : 1:2; 1:4; 1:9; 3:7; 4:4; 4:8; 9:7; 17:3; 21:1; 28:4 Y : 5:6; 6:5; 6:6; 6:9; 9:2; 10:4; 10:6; 19:3

我们对组合样本进行排序,以计算经验CDF:

                                              

 

 

Kolmogorov Smirnov统计又是两个观测分布函数的最大绝对差。在这里:

                                                                                       

对于两个样本,95%临界值可以用公式来近似:

 

                                                                       

在我们的例子里,,,因此。

因此我们接受零假设。

 

 

最新回复(0)