收藏 分享(赏)

非参数统计学讲义(第二章)讲稿.doc

上传人:精品资料 文档编号:10614219 上传时间:2019-12-06 格式:DOC 页数:21 大小:899KB
下载 相关 举报
非参数统计学讲义(第二章)讲稿.doc_第1页
第1页 / 共21页
非参数统计学讲义(第二章)讲稿.doc_第2页
第2页 / 共21页
非参数统计学讲义(第二章)讲稿.doc_第3页
第3页 / 共21页
非参数统计学讲义(第二章)讲稿.doc_第4页
第4页 / 共21页
非参数统计学讲义(第二章)讲稿.doc_第5页
第5页 / 共21页
点击查看更多>>
资源描述

1、第 页 1非参数统计学讲义第二章 单样本模型1 符号检验和有关的置信区间在有了一个样本 之后,很自然地想要知道它所代表的总体的“中心”在哪里例如,在对人们的收入进行了抽nX,1样之后,就自然要涉及“人均收入”和“中间收入”等概念这就与统计中的对总体的均值(mean),中位数(median)和众数(mode)等位置参数的推断有关。例如,在知道总体是正态分布时,要检验其均值是否为 ;一个传统的基于正态理论的典型方法是 t 检验它的检验统计量定义为 nsXt/这里 为样本均值,而 为样本标准差。t检验的统计量在零假设下有 n1 个自由度的 t分21)(XS布。检验统计量是用样本标准差 s 代替了有标

2、准正态分布的检验统计量的总体标准差后而产生的在大样本时,二者几乎相等。t检验也许是世界上用得最广泛的检验之一。但是,t检验并不稳健,在不知总体分布时,特别是小样本时,应用 t检验就可能有风险。这时就要考虑使用非参数方法。对于本章所要介绍的数据趋势或随机性检验,就不存在简单的参数方法非参数方法总是简单实用的。本章所介绍的一些检验有代表性,因此这里的讨论将比其它章节更为仔细一旦熟悉了非参数方法的一些基本思路,后面的内容就很容易理解了一、问题的提出【例 2-1】联合国人员在世界上 66 个大城市生活花费指数(以纽约市 1962 年 12 为 100)按自小至大的次序排列如下(这里北京的指数为 99)

3、:表 2-1 生活花费指数数据66 75 78 80 81 81 82 83 83 83 8384 85 85 86 86 86 86 87 87 88 8888 88 88 89 89 89 89 90 90 91 9191 91 92 93 93 96 96 96 97 99 100101 102 103 103 104 104 104 105 106 109 109110 110 110 111 113 115 116 117 118 155 192在例子中,人们可能会问:总体的平均(或者中间)水平 1是多少?北京是在该水平之上还是之下?可以假定这个样本是从世界许多大城市中随机抽样而得的

4、所有大城市的指数组成总体可能出现的问题是:这个总体的平均(或者中间)水平是多少?北京是在该水平之上还是之下?这里的平均(或中间)水平是一个位置参数。一般的统计书中的均值就是一个位置参数中位数是另一个位置参数它们都是数据总体中心位置的度量和位置参数相对的一个参数为尺度参数;比如在标准统计课本中的描述数据集中和分散程度的方差或标准差这个例子经过简单计算,得到样本均值为 96.45,而样本中位数为 91;它们都可作为总体的中心的估计,除此之外,众数(频率最大的点,本例是 88)可作为中间位置通常在正态总体分布的假设下,关于总体均值的假设检验和区间估计是用与 t 检验有关的方法进行的。然而,在本例中,

5、总体分布是未知的为此首先看该数据的直方图从图中很难说这是什么分布。在右边的两个点分别是东京和香港。1 刻划位置参数的量有:平均值: ;中位数: ;修整均值:ixn1为 偶 数为 奇 数nxMn2/)(/1(), ;众数;中列数: 。jnjiixT1)(2)(j/()1()Xn第 页 2VAR00001190.0180.0170.0160.0150.0140.0130.0120.0110.0100.090.080.070.03020100Std. Dev = 18.09 Mean = 96.5N = 66.00由于此时我们不知道总体是否为正态分布(或者数据表明它就不是一个正态分布) ,所以有关参

6、数统计中的 t-统计量就不能用,势必要选择非参数的统计量来解决这样的问题。符号检验(Sign Test)是利用正、负号的数目对某种假设作出判定的非参数统计方法。二、普通的符号检验1基本方法如果所研究的问题,可以看作是只有两种可能:“成功”或“失败” ,并且成功或失败的出现被假定遵从二项式分布,以“”表示成功,以“”表示失败,那么随机抽取的样本就有两个参数:成功的概率 P+和失败的概率 P。这样就可以构造一个假设: PH:01这是双侧检验,对备择假设 H1 来说,不要求 P+是否大于 P。如果所研究的问题,要求考虑是 P+比较大还是 P比较大,则需用单侧备择假设,即:0 H:0P这里 表示 P+

7、是比较大的, 被用来说明 P是比较大的。H为了检验上面的假设,普通的符号检验所定义的检验统计量为 和 。 表示为正符号的数目, 表示为负符号的数目,SS是符号的总数目。nS要对假设作出判定,需要找到一个 P 值。因为对于 和 来说,抽样分布是一个带有 ( 表示成功的概率)的二项式 5.0分布,所以如果 H0 为真,从二项分布表中能够根据 n、 和 查到 P 值。若 P 值很小,表明 H0 为真的可能性很小,数据不支持 H0,而支持 H1。注:双边假设检验中的尾概率 P-值应是单边假设检验中的 P-值的 2 倍;在 n( )较小时,可以利用二项分布表查2表,计算出精确的 P-值;在 n(n20)

8、较大时,则要用正态分布来近似,因为 ,所以)/1,(Bik,并且要作连续性修正。)1,0(2/4/NknZ0.5SnZ* MERGEFORMAT (0.1).05n普通的符号检验其判定可以归纳如表 22 所示。表 2-2 生活花费指数数据 22 注意与教材中取最小二者之间最小值的等价性。注释: ()(1)niniisPSp0(1)()siniip第 页 3备择假设 P 值(二项分布表)PH:的右尾概率S的左尾概率S的右尾概率的左尾概率:1和 中大者右尾概率的2 倍和 中小者左尾概率的2 倍备择假设 P 值(正态分布表)PH:的右尾概率Z的右尾概率:1和 中大者右尾概率的2 倍2应用在实际问题的

9、研究中,常常会遇到难以用数值确切表达的问题,而采用符号检验可以帮助解决这类问题的研究。【例 2-2】女性在对事物的看法上是否倾向于比男性保守些社会科学家对这样的事实很感兴趣,当夫妇俩人有一个类似的观点时,妻子可能比丈夫要保守。为了验证这一事实是否成立,随机选取了 50 对夫妇进行调查。按预先制定的问题每人分别被间问,结果只有 10 对夫妇的看法倾向性差异较大,而其中9 对夫妇的妻子确实比丈夫保守。分析;研究这问题,可以看作是“成功”与“失败”的问题,妻子比丈夫保守为成功,妻子不如丈夫保守为失败。因为希望得出妻子比丈夫较为保守的结论,故而备择假设是单侧的,即 P+P 。这样建立的假设为:PH:0

10、由于在 10 对符合条件的夫妇中,有 9 对妻子比丈夫保守,因而 9, 1,n10。根据 n10, 9,查附表, 为 9SSS的右尾概率 P0.0107 ,也就是说,对于成功概率 05 的二项分布来说,在 10 次试验中,有 9 次或 9 次以上成功的概率 P 为0.0107,这是个极小的概率。因此,可以得出结论:这批调查的数据不支持 H0,而支持备择假设,即妻子确实比丈夫要保守些。【例 2-3】广告对商品促销是否起作用人们一般认为广告对商品促销起作用,但是否对某种商品的促销起作用并无把握。为了证实这一结论,随机对 15 个均销售该种商品的商店进行调查,得到的数据如表 23。表 2-3 广告前

11、后销售稿况表商 店 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15未作广告每日销量 2 2 2 2 2 3 3 3 2 3 2 3 2 3 3广告后每日销量 2 3 3 4 4 2 3 4 3 3 4 2 3 4 4差值的符号 分析:由于假定随机油取的 15 个商店在广告前后其它条件均没有变化,如营业员人数,营业面积,服务质量等等,仅仅是考察广告的作用,因此符合普通符号检验的条件。由于想得出广告起作用的结论,因而是单侧检验,即广告后销量增加。建立的假设为 PH:0根据表 2-3 可知, 10,而 2,n12。在附表中,n12, l0 的右尾概率 P00193。这也是一个

12、很小的概率,表S S示调查结果不支持 H0,而支持 H1,即广告确实对这种商品促销起了作用。【例 2-4】顾客对咖啡、茶的喜好是否有差异。若有差异,是否更喜欢茶。为了解顾客对咖啡,茶的喜好情况,在某商店随机抽取 l5 名顾客进行调查,结果有 12 名顾客更喜欢茶,2 名顾客更喜欢咖啡,1 名对两者同样爱好。分析:顾客对咖啡、茶的喜好调查,其目的只是为了比较两者中哪个更受欢迎,并无定量的数值,因而可以来用符号检验。在咖啡、茶中更喜欢茶为“成功” ,反之为“失败”故可建立假设PH:01第 页 4这一假设仅判定对二者喜欢程度有无差异。由调查结果知: 12, 2,n14。查附表,n14 时, 与 中大

13、者S S 12 右尾概率的 2 倍是 20006500130。显然 P00130 很小,以显著性水平 005,P 足够小,故这批数据不支S 持 H0,即顾客对咖啡和茶的喜爱有显著差异。要判断是否更喜欢茶,建立单侧备择假设 P:0根据上面的分析,n14, 12 时,附表显示的 P 值为 00065 。对于 001,P 值也足够小,故数据不支持 H。 ,而支持S H+。顾客在咖啡和茶中更喜欢茶。三、位置的符号检验1基本方法一个随机抽取的样本,有 n 个数据 ,其实际的总体中位数记作 M,假定的中位数是某个特定值,记作 M0。若nx,21研究问题时关心的是:真实的中位数 M 是否不同于 M0,可以建

14、立假设00:H1如果关心的是:真实的中位数 M 是否大于或小于特定的数 M0,则应建立单侧备择假设00: 0:H 只要样本数据 能够被测量,至少是定距尺度测量,若定序尺度测量的,应能与 M0 相比并决定大小次序,也就nx,21是说,数据与 M0 比较的结果能用“十”或“一”表示,设定 在 M0 附近是连续的,则普通的符号检验方法可以应用。nx,21这就是符号检验法用于单样本位置的推断。检验统计量。位置的符号检验所定义的检验统计量也是 和 , 表示每一个观察数据 与特定的数 M0S ),21(nix的差值 的符号为正的数目,即 ; 表示 符号为负的数目,即 。0xDi)0(XISi iD()iS

15、IX,n 表示符号的总数目。由于 M 为中位数,故每一个样本点要么大于 M,要么小于 M(除去相等的那些点)且概率S都为 0.5。所以一系列的样本观察值就相当于一个 n 重 Bernoulli 试验,从而有 和 。 和 就是所要找的统S)/,(nBiu计量,因为它满足统计量的要求:样本的函数;分布已知。P 值的确定。当 时,与普通的符号检验一样,从附表中查找;若 n20,由正态近似得到 P 值,在正态分布表中查找。202应用【例 2-1】接引例分析:零假设 H0:M99 备择假设 H1:M= Test ValueTotal CasesNumber of RunsZAsymp. Sig. (2-

16、tailed)VAR00004Meana. 从生产线上抽取产品检验,是否应采用频繁抽取小样本的方法。在一个刚刚建成的制造厂内,质检员需要设计一种抽样方法,以保证质量检验的可靠性。生产线上抽取的产品可以分成两类,有瑕疵,无瑕疵。检验非用与受检产品数量有关。一般情况下,有毛病的产品如果是成群出现的,则要频繁抽取小样本,进行检验。如果有毛病的产品是随机产生的,则每天以间隔较长地抽取一个大样本。现随机抽了 30 件产品,按生产线抽取的顺序排列:0000111111111111110001111111检验瑕疵的产品是随机出现的吗?有瑕疵的产品是随机出现:0H有瑕疵的产品是成群出现1VAR00002Tes

17、t Value 1.0000Cases = Test Value 23Total Cases 30Number of Runs 4Z -3.811Asymp. Sig. (2-tailed).000例、假设某企业在过去15年中盈亏情况为:00001111111000111111(1盈利,0亏损)。改企业某一年盈利对以后是否亏损有无影响? )(/)2(5.2NmnUZ )120(/)1372(5.4Z-2.84316)0(/)137(.42当 , ,05.96.2zRuns TestVAR00001Test Value(a) 1.00Cases = Test Value 13Total Case

18、s 20第 页 16Number of Runs 4Z -2.843Asymp. Sig. (2-tailed) .004a Median三、 基于上、下游程的检验上、下游程(Runs Up and Down)亦称升降串。这个检验不是单纯地用两个符号的多少以及游程的数目来进行,而是利用每个观察值与紧挨其前面的一个数值比较大小,决定升、降,利用形成的升降串进行检验。因此它比普通的游程检验能够提供更多的信息。1上、下游程的含义随机抽样得到的观察值按某一顺序排列,序列中每个观察值与其前面的一个数值比较,如果前面的数值较小,就构成一个上列串,即一个上游程;如果前面的数值比较大,就构成一个下降串,即一个

19、下游程。一个上游程中包含的观察值数目,就是游程的长度例如,某一序列的观察值为 7,15,l,2,5,8。这个序列有一个长度是 l 的上游程,因为第二个值 15 比前面的值 7 要大,而比后面的值 1 也要大,紧跟着是一个长度为 1 的下游程,然后是一个长度为 3 的上游程。如果用十、一表示上升或下降的变化方向,那么上面序列的变动结果是:十,一,十,十,十。这个序列观察值的数目,即样本数据的个数 N6,上、下游程的总数为 3。2基本方法( 1)提出假设和普通游程检验类似,如果研究的问题是序列是否随机,可以建立双侧备择,若关心的是序列是否有某种倾向,则建立单侧备择。为对假设作出判定。所需要的数据至

20、少是定序尺度测量的。在 H0 为真的情况下。相继的观察值之间差值的符号为“十”或为“一”的可能性相等。因此,上、下游程的总数可以反映序列的变动。如果相同的符号成群,游程的总数就会太少,表明序列是有一个恒定方向的倾向,成顺序增加,或顺序减少;如果符号不断地变化,游程的总数就会很多,表明序列有经常的波动或循环移动或漂浮不定的变动。( 2)选择统计量检验统计量。N 个不同观察值按某一顺序排列后,可以得到一个 N 一 1 个正号或负号组成的相应次序的序列,这个序列的上、下游程总数就是检验统计量,记作 V即有V上、下游程的总数( 3)确定 P-值在小样本时(N25)检验统计量 V 与 U 的分布不同,V

21、 的抽样分布也可心查表获得。V 的取值范围从 l 到 N 一 1,N 是观察值即样本数据内数目。在大样本时(N25)检验统计量 V 近似正态分布,均值为(2N 一 1)3,标准差是 。通过连续性修正,计算得到90/)216(N,90/)216(5.NZL 90/)216(35.ZR3/)(R若 若查表可得相应的 P-值。表 2-10 上、下游程检验判定指导表备择假设 P-值:序列有混合倾向HZR的右尾概率:序列有成群倾向 ZR的左尾概率:序列是非随机的 Z 的右尾概率的 2 倍3应用【例 2-15】对儿童的调查是否会因为儿童之间相互通气产生某种倾向对儿童的好斗原因进行研究,按时间顺序观察了同一

22、幼儿园的 24 名儿童,观察结果如表 211。如果这一结果受到调查中儿之间相互通气的影响,产生某种倾向,那么就无法利用它进行儿好斗的原因分析。因此,利用这批数据之前,有必要对其是否陷进行检验。第 页 17表 2-11 按照观察顺序记录的儿童好斗程度评分编号 分数 编号 分数 编号 分数 编号 分数1 31 7 12 13 15 19 862 23 8 26 14 13 20 613 36 9 43 15 78 21 134 43 10 75 16 24 22 75 41 11 2 17 13 23 66 44 12 3 18 27 24 8分析:由于研究只关心序列是否随机,因而可建立双侧备。建

23、立的假设组为H0:序列是随机的H1:序列不是随机的这一问题可以来用普通游程检验,也可用上、下游程检验应用普通游程检验。表 211 的评分结果按从小到大的顺序排列,中位数是 25,则高于中位数的编号为 1,低于中位数的编号为 0,将表 21l 中的按观察顺序记录的分数换成相应的符号 0、1,可以得到 m12,n12,Nm 十 n24,U10。查附表,得到 P0.150。由于是双侧检验,因而 P 应取 200150030 ,对于显著性水平 0.05:P 已足够大,表明数据支持 H。 ,即调查结果没有受儿童之间相互通气的影响,是随机的。上、下游程检验。将表 211 的调查评分,按升、降给以符号十、一

24、,得到下面 23 个符号一,十,十,一,十,一,十,十,十,一,十,十,一,十,一,一,十,十,一,一,一,一,十这一序列,包含上、下游程数目总共 14 个,即 v14。查附表,N24,V14,P02768,由于是双侧检验,P 应是2027680.5536。显然,对于显著性水平 005,P 已足够大。因此,调查数据在 5的显著水平上不能拒绝 H。 ,表明调查结果没有受儿童相互通气的影响。与普通游程检验的结论一致。第 页 184 正态记分检验一、 基本思想在各种秩检验当中,由于秩检验统计量为秩的函数,而秩的分布是一个均匀分布,当我们用正态分布来代替它就形成正态记分(normal score) 。

25、当我们把按升幂排列的秩 用升幂排列的正态分布点(如: )代替,形成了 Van der Waerden 型记分 7。iR)1/(1nRi二、 两个等价的正态记分检验1对应于 Wilcoxon 符号秩统计量。由线性符号秩统计量 niiiXIRaS1)0()记分函数 且 。需要改变记分:/inain ,21)2(记为 ,则有正态记分检验统计量为:iS或MXiiSV0nMXiiS0注解:统计量的选择依据备择假设在大样本的时候要用正态近似 )1,0(21NSTHii2对应于统计量 的检验。W前面的做法同上面的检验,用相应的正态记分来代替这些秩,如果 为 的秩,则相应的符号正态记分为:ir0MXi)()1

26、(0MXsignrSii 用 W 表示记分 的和,即 ,正态记分检验统计量为:iSiS1),0(12NTni【例 2-16】续例 2-10,做正态记分检验,详见教材 P42。7 正态记分的种类很多,还有一种称为期望正态记分(expected normal score) ,是用正态分布第 i 个顺序统计量的期望值来代替正态记分。实践中它与 Van der Waerden 型记分得出的结果差不多。第 页 195 Cox-Stuart 趋势检验一、 问题的提出在判断某个序列或变量的增减趋势时,光凭目测法从图形中很难得出结论。【例 2-17】我国 1985 年到 1996 年的出口和进口贸易差额(以亿

27、美元为单位) 。-149.0 -119.7 -37.7 -77.5 -66.0 87.480.5 43.5 -122.2 54.0 167.0 122.2二、 Cox-Stuart 检验1检验类型 H 0:无增长趋势 H1:有增长趋势 H 0:无减少趋势 H1:有减少趋势 H 0:无趋势 H1:有增长或减少趋势2数学描述设 分别来自分布为 的总体, 对称于零点,则nX,21 )(ixF)(F就对应为: nn 21210:就对应为: 就对应为: :3操作方法 基本思想:把每一个观察值和相隔大约 n/2 的另一个观察值配对比较(大约有 n/2 个对子) ,然后看增长的对子和减少的对子各有多少来判断

28、总的趋势。 操作步骤:取 和 组成一个点对 。iXci )2/,1(),( niXci 其中, ,对数为 奇 数为 偶 数nC2/)1( 为 奇 数为 偶 数C用每一点对的两元素差 的符号衡量增减。令 为正的 的数目, 为负的 的数目 8。在CiiiDSiDSiDH0 下, ( ) 。S)5.0,b检验。对应上面的三种检验类型,分别取统计量 ,则),min(,K和P-值 = 9)(kKP【例 2-18】续例 2-17【本章思考题】8 这里, , 不包含差为零的对子。当 越大时,即正号越多时,有下降趋势;反之,则有增长趋势。nS S9 数据越少越难拒绝原假设。中 国 近 12年 来 出 进 口

29、差 额 图-200.0-150.0-100.0-50.00.050.0100.0150.0200.01985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996年亿 美 元-20-100102085687890912934956BALNCE第 页 201符号检验与 Wilcoxon 符号秩检验的区别与联系?2什么游程及如何进行游程检验?3如何进行 Cox-Stuart 趋势检验?第 页 21补充:概率论中常用的几种变换 101母函数(Generating Function)(1)定义:设 X 为取非负整数值的随机变量,X 的母函数定义为

30、: 0()kGzp其中, 的母函数也称为对 的 z 变换或几何变换。(),01,2kpPkX ,1,2kNOTE:由 Laplace 在 19 世纪初引入概率论;作用:主要计算数学期望和方差;组合数学中的计数;性质:两个独立随机变量(取非负整数值)和的母函数是这两个随机变量的母函数的乘积,结论可以推广到 n 个独立随机变量的情形。(2)应用举例例:从装有号码 1,2,3,4,5,6 的小球的袋中,有放回地取 5 个小球(取出 1 个记下号码放回再依次取) ,求所得号码总和为 15的概率。解:令 为第 i 次取得小球的号码,诸 是相互独立的且为同分布,则 为摸得的 5 个小球号码的总iXiX12

31、5XX和。可以求得 的母函数为: ,由性质可得:i601()kkiGzpz26515556125 0()()()()kkzzzA A所求概率 为 的展开式中 的系数,所以(1)PX(Gz5z1045 56() ()62矩母函数(1)定义:随机变量 X 的矩母函数定义为 ().()()txtxtxtefdXiscontusRVtEedFPre这种变换称为指数变换。(2)性质: ;若 X 的矩母函数存在,则 X 的矩母函数与分布函数是一一对应的。()0()1,2nnX(3)应用举例例:设 X 与 Y 相互独立, , ,则,)N2(,)Y211(,)YN解: ,2111()expexp2tx tt dep)Ytt22112()()(exp()XXY tt t A10 拉氏变换(Laplace 引入组合数学)与母函数相对应;指数变换与矩母函数相对应;傅里叶(Fourier)变换与特征函数相对应。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报