1、确定出最优分割点后,还需对分割样本进行检验,看跳跃成分是否显著,本文采用非参数检验方法 Mann-Whitney U 检验和 Kruskal-Wallis 检验 58。先对两样本的情况做 Mann-Whitney U 检验。两独立样本的 Mann-Whitney U 检验的零假设 H0 为样本来自的两独立总体均值没有显著差异。两独立样本的 Mann-Whitney U 检验主要通过对平均秩的研究来实现推断。秩简单地说就是名次。如果将数据按照升序进行排序,这时每一个具体数据都会有一个在整体数据中的位置或名次,这就是该数据的秩,数据有多少个,秩便有多少个。Mann-Whitney U 检验的实现方
2、法是:首先将两组样本数据(X 1,X2,Xm)和(Y 1,Y2,Yn)混合并按升序排列(m 和 n 是两组样本的样本容量),求出每个数据各自的秩 Ri;然后,分别对( X1,X2,Xm)和(Y 1,Y2,Yn)的秩求平均,得到两个平均秩 Wx/m 和 Wy/n。如果这两个平均秩相差很大,即一组样本的秩普遍偏小,另一组样本的秩普遍偏大,则零假设不一定成立。Mann-Whitney U 检验还计算(X 1,X2,Xm)每个秩优于(Y 1,Y2,Yn)每个秩的个数 U1,以及(Y 1,Y2,Yn)每个秩优于(X 1,X2,Xm)每个秩的个数U2,并对 U1 和 U2 进行比较。如果 U1 和 U2
3、相差很大,则零假设不一定成立。利用 SPSS 自动计算 Wilcoxon W 统计量和 Mann-Whiteny U 统计量,其中:当 mn 时, Wilcoxon W=Wx;当 m=n 时, Wilcoxon W=第一个观察值所属样本组的 W 值。Mann-Whitney U 统计量的计算公式如下:n(1)=W-2其中 W 为 Wilcoxon W 统计量,n 为 W 对应组的样本容量。SPSS 将计算出 U 值,然后依据 Mann-Whitney 分布表给出对应的相伴概率值。同时,SPSS 还计算近似服从正态分布的 Z 统计量,计算公式如下:(3-6)21(1)mnUZ同样,SPSS 也会
4、给出 Z 值对应的相伴概率值。在样本个数小于 30 时,应以 U 统计量的相伴概率值作为判断标准,在样本个数大于 30 时,属于大样本情况下,应以 Z 统计量的相伴概率值作为判断标准。如果相伴概率小于或等于用户的显著性水平 ,则应拒绝零假设 H0,认为两个样本来自的总体均值有显著差异;如果相伴概率值大于显著性水平 ,则不能拒绝零假设 H0,认为两个样本来自的总体均值无显著差异。再对多样本的情况做 Kruskal-Wallis 检验。Kruskal-Wallis 检验是一种推广的平均秩检验。其零假设为:样本来自的多个独立总体的分布无显著差异。多独立样本的 Kruskal-Wallis 检验的基本
5、办法是:首先将多组样本数据混合后按升序排列,并求出每个观察值的秩,然后对多组样本的秩分布求平均值。如果各组样本的平均秩大致相等,则可以认为多个独立总体的分布没有显著差异。如果各样本的平均秩相差很大,则拒绝零假设,不能认为多个独立总体的分布无显著差异。SPSS 将计算 Kruskal-Wallis 统计量 Z,公式如下:(3-7)212()()kiZnRN其中: 表示有 组样本;表示第 组样本的观察值个数;ini为平均秩。RSPSS将自动计算Kruskal-Wallis 统计量,并依据Kruskal-Wallis统计量检验临界值表给出Kruskal-Wallis统计量对应的相伴概率值。如果相伴概率小于或等于用户的显著性水平 ,则应拒绝零假设H 0,认为多个样本来自的总体分布有显著差异;如果相伴概率值大于显著性水平 ,则不能拒绝零假设H 0,认为多个样本来自的总体分布无显著差异。