1、统计之都 COSCapital Of Statistics www.cos.name IN THE NAME OF STATISTICS, UNITE!1统计之都 COSCapital Of Statistics www.cos.name IN THE NAME OF STATISTICS, UNITE!2人大统计学专业课读书笔记By fan(声明:这是 fan 的个人读书笔记,仅供参考。 )统计之都 COSCapital Of Statistics www.cos.name IN THE NAME OF STATISTICS, UNITE!3统计学 (贾俊平)1 参数估计1.参数估计:统计推
2、断的重要内容之一,以抽样和抽样分布为基础,用样本统计量来估计未知总体参数。2.估计量:估计总体参数的统计量。3.估计值:用具体样本计算出的估计量的值,即估计量的实现。4.点估计:用某个估计值作为总体参数的估计。5.区间估计:以点估计为基础,给出总体参数估计的一个区间范围,由点估计量加减边际误差得到。能由抽样分布给出估计量与总体参数接近程度的概率度量,即置信水平。6.置信区间:总体参数的估计区间。统计学家在某种程度上确信它会包含总体参数真值,是随机区间。7.置信水平(置信度):重复构造置信区间多次,其中包含总体参数真值的区间个数所占的比例。它是针对随机区间而言的。8.估计量评价标准:无偏性、有效
3、性、一致性。9.理论基础大数定律:揭示了大量随机现象均值的稳定性。常见的有伯努利大数定律(频率稳定性) ,辛钦大数定律(简单随机样本均值依概率收敛于总体均值) ,切比雪夫大数定律。是用样本估计总体的理论基础。中心极限定理:揭示了独立同分布随机变量之和的极限分布是正态分布。常见的有伯努利试验场合、独立同分布试验场合的中心极限定理。是区间估计和假设检验的理论基础。抽样分布基本定理(正态假定)a. ; b. ;2(,/)XNn22(1)/(1)nSnc. 与 相互独立; d. ;2S/Xte. ;2112/(,) ()Fn独 立 样 本统计之都 COSCapital Of Statistics ww
4、w.cos.name IN THE NAME OF STATISTICS, UNITE!4f. 。212121()()()(=)pXYtnSn独 立 样 本 ,10.单总体参数估计目标量: , , 。2影响因素:a.是否是正态总体;b.总体方差是否已知;c.是大样本还是小样本。抽样分布a. ; b. (0,1)/XZNn (1) 0,) /tnXtNS, 大 样 本 ;c. ;(,) 5()5()pnp大 样 本 , ,d. 。222(1)/(1)nS11.两总体参数估计目标量: , , 。121221影响因素:a.是否是正态总体;b.两总体总体方差是否已知、是否相等;c.是大样本还是小样本,
5、两样本量是否相等;d.是独立样本还是匹配样本。抽样分布a. ;1212()()(0,1) )XZNn独 立 样 本b. ;1212()()(,) )S独 立 大 样 本c. ;21212121()()() ()pXt tnSn独 立 样 本 , =d. ;12()(0,) )/dZN匹 配 样 本e. ;12()(,1) )/dSn匹 配 大 样 本统计之都 COSCapital Of Statistics www.cos.name IN THE NAME OF STATISTICS, UNITE!5f. ;1212()()(0,1)pZNpn独 立 大 样 本g. 。21/(1,2) ()S
6、F独 立 样 本12.确定样本量: 。2/2 (1)zEznEE表 示 可 靠 性 , 表 示 精 度2 假设检验1.假设检验:统计推断的重要内容之一,先对总体参数提出一个假设,然后利用样本来检验该假设是否成立。2.原假设与备择假设:假设检验是围绕原假设是否成立展开的,若拒绝原假设,就用备择假设来替换。推翻原假设需要样本落入否定域,这是小概率事件,故在一次试验中原假设具有优势而备择假设不易发生,一旦发生,我们就有足够的理由推翻原假设,这意味着新结论的诞生。3.弃真错误( 错误)与取伪错误( 错误):前者是原假设为真却被拒绝所犯的错误,后者是原假设为假却没被拒绝所犯的错误。样本量一定时,两者是此
7、消彼长的关系;若增大样本量,则两者同时变小。假设检验中遵循“首先控制犯 错误”的原则。4.小概率原理:发生概率很小的随机事件在一次试验中几乎不可能发生。5.统计量检验与 P 值检验否定域:由一个直观上有明确意义的统计量确定。P 值:当原假设为真时,得到所观测结果或更极端结果的概率。比较:统计量检验是先确定一个显著性水平 从而获得一个否定域,进行决策的界限清晰但面临的风险是笼统的,确定临界值要查表,检验统计量一般与自由度有关因而可比性较差;P 值是检验的真实显著性水平,可利用 P 值直接决策或将 P 值与 进行比较,不需要查表,具有可比性。6.假设检验流程图(见图 1)3 方差分析统计之都 CO
8、SCapital Of Statistics www.cos.name IN THE NAME OF STATISTICS, UNITE!61.基本思想:表面上是检验多总体均值是否相等,本质上是研究变量间的关系,即通过各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响,其中需要分析数据变异的来源。观察到的数据一般是参差不齐的,我们用 SST 度量数据总的变异,将它分解为可追溯到来源的部分变异 SSE 与 SSA 之和,若后者的平均 MSA 明显比前者的平均 MSE 大, 图 1就认为自变量对因变量有显著影响。在方差分析的基本假定下,上述问题形式上就转化为检验各总体均值是否相等的问
9、题。2.基本假定:a.各总体服从正态分布;b.各总体方差相同;c.各观测值相互独立。3.方差分析与两两均值检验:两两均值检验会增加犯第累错误的概率() ,而且随着检验次数的增多,偶然因素导致差别的可能性也会增加;方(1)/2n差分析是同时考虑所有样本,排除了错误的累积,减少了偶然因素的不利影响,也简化了检验的过程。4.单因素方差分析数据结构1C2 kx 1x21 2k1nx21 knx统计之都 COSCapital Of Statistics www.cos.name IN THE NAME OF STATISTICS, UNITE!7表 1方差分析模型由基本假定, 2(,) ,;1,ijj
10、jxNink 令 0ijijj有 ijjijx令总均值 11 ()kkj jn有 称为第 个水平的效应11()0kkj jn(jj)得单因素方差分析模型 21, ,;1,(0,)ijjijjij ijkjxnkNn 各 相 互 独 立步骤a.提出假设: ;0111: 0:(,)kkjHHk 不 全 相 等b.构造检验统计量: ;0 (,)HMSAFnEc.统计决策。方差分析表差异源 SS DF MS F P-value F crit组间 SSA k-1 MSA MSA/MSE组内 SSE n-k MSE 总计 SST n-1 表 25.有交互作用的双因素方差分析(等重复试验情况):数据结构(见
11、表 3)方差分析模型统计之都 COSCapital Of Statistics www.cos.name IN THE NAME OF STATISTICS, UNITE!8由基本假定, 2(,)1,;,;1,ijlijxNsjklm 令 0ijlijlij有 ijlijijlx1C k1Rx1m 1x1km sR1sx1sm 1skxskm表 3令 111, , skksij ijjijij j 令行、列、交互效应 , , ()iijjijijij 得有交互作用因素方差分析模型 21111(), ,;,;1,(0,) ()()0ijlijijijlijl ijlskskjj ij iji i
12、 jx sjklmN 各 相 互 独 立原假设与检验统计量 011203 1: ()()0ssk skH 两 因 素 个 水 平 间 无 交 互 作 用/()/ /1), , 1()(RCRCSsSkSFFFEkmEsmEm统计之都 COSCapital Of Statistics www.cos.name IN THE NAME OF STATISTICS, UNITE!96.无交互作用的双因素方差分析数据结构(见表 4)方差分析模型由基本假定, 2(,) 1,;,ijijxNsjk 令 0ijijij1C kRsx 1x1 sk表 4有 ijijijx令 111, , skksij ijj
13、ijij j 令行、列、交互效应 , , ()0iijjijijij 得无交互作用因素方差分析模型 211, ,;1,(0,) ijijijij ijskjjixsjkN 各 相 互 独 立原假设与检验统计量 0112: 0sskH /()/(1), RCSSkFFEsEs7.多重比较:当方差分析拒绝原假设时,为进一步分析到底是哪些均值不相等,于是将各均值配对检验,但检验统计量不是 t 统计量。8.试验设计统计之都 COSCapital Of Statistics www.cos.name IN THE NAME OF STATISTICS, UNITE!10含义:收集样本的计划,通过科学安排
14、试验,用尽可能少的试验获得尽可能多的信息。主要数据分析方法是方差分析。完全随机化设计:将各种处理随机指派给试验单元。数据分析方法是单因素方差分析。随机化区组设计:将试样单元划分为若干区组,再将各种处理随机指派给各区组。划分区组可消除试验单元的差异造成的影响。因每个区组只做一次试验,故只能采用无交互作用双因素方差分析方法。因子设计:考虑两个或多个因素搭配的试验设计,每种搭配可重复试验。数据分析方法是有交互作用双因素方差分析。4 数据整理与展示1.数据类型与图示法图 22.几种图示法的比较条形图与直方图:前者用长度表视频数(率) ,宽度固定,各矩形分开排列,主要展示分类数据;后者用面积表示频数(率) ,宽度为组距,各矩形连续排列,主要展示数值型数据。茎叶图与直方图:前者类似于横直直方图,既能展示数据分布状况,又保留了原始数据,适用于小批量数据;后者也能很好显示数据分布状况,但不能保留原始数据,适用于大批量数据。饼图与环形图:前者只能显示一个样本或总体的比例数据;后者可以同时显示多个样本或总体的比例数据,有利于比较。