收藏 分享(赏)

心统第一次小测复习提纲--------描述统计部分.doc

上传人:海纳百川 文档编号:1118713 上传时间:2018-06-13 格式:DOC 页数:10 大小:52KB
下载 相关 举报
心统第一次小测复习提纲--------描述统计部分.doc_第1页
第1页 / 共10页
心统第一次小测复习提纲--------描述统计部分.doc_第2页
第2页 / 共10页
心统第一次小测复习提纲--------描述统计部分.doc_第3页
第3页 / 共10页
心统第一次小测复习提纲--------描述统计部分.doc_第4页
第4页 / 共10页
心统第一次小测复习提纲--------描述统计部分.doc_第5页
第5页 / 共10页
点击查看更多>>
资源描述

1、心统第一次小测复习提纲- 描述统计部分第一章 统计和度量的基本概念-以后重点掌握统计的逻辑与统计方法适用条件统计:指组织,总结和解释信息的一整套方法和规则。描述统计:总结,组织,和使数据简单化的统计程序。推论统计:使我们能够通过对样本的研究将其结果推广于总体。多元统计统计的功能:统计方法使研究者能够描述和分析所得到的观察结果统计方法通过组织和解释数据,帮助人们确定所得到的信息,准确而有效的呈现或解释观察所得。科学方法:我们产生一个可验证的假设我们客观地验证这个假设设计实验.随机取样.收集数据.分析数据,看是否支持了假设.自变量:IV 是原因,在真实验中,自变量是研究者所操纵的。因变量:DV 测

2、量自变量效果的变量,需要是可观察的和可测量的。IV DV 的确定:排除任何恒定的东西. IV 和 DV 是 变量- 在某一尺度上变化的一系列分数.在开始我们会遇到有一个实验组和一个控制组的研究找到这两个组. 这就是 IV 并且度量了原因.DV 通常有多个值. 我们预期实验组的分数不同于控制组 .统计学要解决的实际问题如何收集资料才能最有效的反映所研究的课题;采用什么方法整理和分析所得数据才能最大限度最客观地呈现这些数据所反映的信息;怎样才能把抽取的样本中所获得的结果推广到总体中,作出一般规律性的科学结论总体:你想要研究的所有个体的总和。取样 随机取样 随机样本样本:研究所关注的被试子群体。数据

3、:样本中一个个体观测结果的分数。变量:全部被试在某一指标上的所有数据点。参数和统计量参数(parameter)- 描述总体的数值。参数可以从一次测量中获得,或者从总体的一系列测量中推论得到。统计量 (statistic)描述样本的数值。统计量可以从一次测量中获得,或者从样本的一系列测量中推论得到。取样误差(Sampling error)样本统计量与相应的总体参数之间的差距。假设 构念 和操作性定义假设(hypothesis) 对实验结果的预测。 在实验研究中, 假设就是对操纵自变量会如何影响因变量的预测。构念(Constructs) 指假设的概念,用于理论中,按其内部机制来组织观察。比如智力、

4、人格、动机等等操作定义(operational definition) 用具体的操作或程序以及由此产生的测量指标来定义构念。因此, 一个操作定义包含两个成分:1)它描述了度量一个构念的一系列操作或程序;2)它用度量的结果来定义构念。如:可以将智力定义为韦氏成人智力量表的得分 研究方法相关法:(correlational method)看两个变量是否有某种特定关系。是观察研究(observational method) ,即观察在自然情境中存在的两个变量只能够提供两个变量之间相关程度的研究,却不能提供因果关系的证据实验法:(experimental method) 操纵一个变量,观测另外一个变量

5、的变化。用以建立两个变量间的因果关系。用随机分组和控制其他变量恒定的方法,试图消除其他因素的影响或使之减为最小准实验法(quasi-experimental method)考察已有的各组被试间的差别(如性别差异)或在不同时间所采集数据的差异(如, 处理前和处理后).分组变量称准自变量, 每个被试的分数称因变量混淆变量:未能控制的变量,与自变量有非预期的系统性关系。变量的性质:离散型 连续型(精确界限的问题)数据的测度等级:命名等级(nominal scale) 由一系列具不同名称的范畴所组成。命名量表的度量将观察所得标定并分类, 但不会对观察所得作任何数量化的区分(无大小之分) 。顺序等级(o

6、rdinal scale)由一系列按顺序排列的范畴所组成。顺序量表的度量将观察所得按其大小或数量排定秩次(rank) 。等距等级(interval scale)由一系列按顺序排列的范畴所组成,且每两个邻近范畴之间的距离都是相等的。在等距量表中,加减运算反映数目的大小差距. 但是,乘除运算没有任何意义。比例等级(ratio scale) 是具有绝对零点的等距量表. 在比例量表中,乘除运算反映数量间的比例关系。数据的测度等级与统计分析:各种测量类型的局限性直接关系到统计分析方法的选择-描述统计 推论统计选用统计方法的步骤:分析实验设计,判断数据类型,分析数据分布特征。常用符号: N = 群体大小

7、(参数) n = 样本容量(统计量) -X,-s几个问题:概念解释:总体 样本 个体 随机变量(数据的变异性 随机性-随机误差 规律性-样本推论总体) 观测值 参数 统计量第二章 次数分布描述统计的目标:使一组数据数据易于理解,生动直观,简单明确 采用图和表-初步整理次数分布-最简单的描述统计:描述统计的目的:简化和整理数据的表达。次数分布(Frequency Distribution):是指一批数据在某一量度的每一个类目所出现的次数情况次数分布表和次数分布图就是表达一组数据是如何在某一度量上分布的简单次数分布表次数分布表是将位于量数的每一个类目的个体的个数组织成表格的形式1.- 变量的值?

8、-填充 x 列 从大到小,每个可能的值2.- 每个值出现多少次(发生次数) -填充 f 列3.- 观察的总数?将次数行求和, 将得到 S f = N4.- 变量的总值?最简单的方法就是求(X)和 (f) 的乘积列,然后将结果求和 S(Xf )每个分数的比率和百分率Proportion=p=f/n分组次数分布表- 以本质特性为基础,包含所有数据,标识明确(性质类别,数量类别)当变量的值分布在一个较广的范围时,需要分组次数分布表简捷地描述数据常常以区间或类别的形式出现, 而不是某一特定值. 编制分组次数分布表的步骤1.把所有数据按大小顺序排列2.求全距3.定组数4.定组距5.写出区间上下限6.统计

9、每个区间的次数分组的“惯常法则” (rules of thumbs)1. 分组次数分布表应该有大约 10(5-15 )个区间,目的是使这组数据易于直观感受和理解2. 所有区间的宽度应该相等3. 组距应该是个比较简单的数字,如 2,5,10,204. 每个区间开始的分数应该是组距的倍数精确界限 (Real Limits )对于一个连续型变量,每个分数实际对应量尺上的一段区间。分割这些区间的界限叫做精确界限(real limits). 分割两个邻近分数的精确界限位于两个分数的中间。每个分数有两个精确界限, 一个在区间的顶端,称为精确上限(upper real limit), 另一个在区间的底端,称

10、为精确下限(lower real limit).注意一个区间的精确上限也是高一个区间的精确下限次数分布图:直方图 (histogram)用一些垂直条画在每个分数之上垂直条的高度代表次数垂直条的宽度代表分数的精确区间.临近的垂直条连接在一起只有数据是等距或等比量度(连续变量)时,才能用直方图X 轴与 Y 轴 的交叉点应该是 0棒图(条形图;bar graph )表达质性研究的数据(qualitative data).用一些垂直条画在每个分数(或类别) 之上垂直条的高度代表次数每个垂直条之间有一段空间。只有数据是命名或顺序量度(离散型变量) 时,才能用棒图折线图(line graph)又称次数分布

11、多边图(frequency distribution polygon)在每一分数上面画点点的高度代表次数一条连续折线将这些点连接在一起表达数据的变化趋势无所谓数据类型茎和叶图:将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎) ,将变化大的位的数作为分枝(叶) ,列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。与直方图类似,但保留了原始数据。如何准确地用图表达数据把复杂的观点传递得清晰,准确,高效.在最短的时间里用最少的笔墨和空间传递最多的信息.图形的实际差别与数据的差别成正比.标注清楚,详细,完全. 测度单位要一致.次数分布的形状:用

12、3 个特征可以完整地描述一个分布:形状(shape )集中趋势(central tendency )变异性(variability)对称分布(未必单峰) 双峰分布 矩形分布偏态分布:即统计数据峰值与平均值不相等的频率分布,分数堆积在分布的一端,而另一端成为比较尖细的尾端(tail) 。样本增大时,趋向于正态分布。偏态分布尾端向右的称为正偏态(positively skewed )(因为其尾端指向正数)偏态分布尾端向左的称为负偏态(negatively skewed).百分位数 (percentile)我们也可用次数分布来描述某一个别点在一个集合中的位置原始分数本身并不提供该点在一个集合中的位置

13、的信息一个分数的等级(rank) 或百分位数等级( percentile rank): 某一分布中分数在某一值之下或等于该值的个体所占的百分比. 当一个分数被其百分位数等级, 该分数称为百分位数(percentile).相对次数分布 累计次数分布cf = 累积次数(cumulative frequency)c% = cf/N*100% 累积百分比(cumulative percentage)对于连续型数据, 必须考虑其精确上限和精确下限,百分位数对应区间精确上限。插值法(Interpolation)有时你所感兴趣的值并未出现在表内。此时你需要做基于经验的猜测.插值法的假设是在所求解点的附近 1

14、 个组距单位区间之内的分数和对应的百分比的变化是线性的(统计图表的误差:归组效应,忽略了样本本来的分布。组距越大,误差越大) 。关键在于要找到距求解点最近的两个区间,对于较远的区间,则不满足分数和对应的百分比线性变化的假设。第三章 集中趋势和离散性-如何计算、选取,各有什么性质数据特性集中趋势 变异性 形状均值 标准差中位数 四分位距 偏度众数 全距集中趋势指的是分布的中间位置的情况,离散性指的是分布有多分散。均值 (Mean ) ,亦称算术平均数(arithmetic average)总体的均值公式: m = S X/ N样本的均值公式: x = S X /n平衡原则:分布重心。优点与适用范

15、围,需注意的问题:反应灵敏(用到了每一个数据,但受极端数据影响,有模糊不清数据时无法计算) ,准确可靠(较少受样本变动影响) 。 同质性原则(指使用统一观测手段,观测标准反映某一问题统一特质的数据) ,与标准差配合使用(个体差异大/小,均值代表性小/大) ,可以进一步进行代数运算。中位数:中数(median) 是将分数分布均分为两部分的那个分数. 分布有 50% 的个体等于或小于中数. 中数等价于百分位数(percentile)是 50 的数。中数将分布分为两个大小相等的组。可能是原有数据中的数,也可能不是。求中数的三种情况1) 如果分数的个数是奇数个, 将其按从小到大的顺序排列. 中间的数目

16、就是中数2) 如果分数的个数是偶数个, 将其按从小到大的顺序排列. 然后找出中间的两个分数。将其相加后再除以 23)当分布的中间分数有相等分数 时,用中间分数的精确上下限作插值法极端分数或模糊数据不影响中数。概念简单,不灵敏,不如平均数稳定。3. 众数 (mode)在次数分布中, 众数是具有最多次数的那个分数或类目。注意:一个次数分布可能有多个众数.是类目变量(命名)可以选用的唯一集中量数不稳定,反应不灵敏,可能不是好的集中量数。选择适宜的集中量数:命名型变量 众数顺序型变量 中数等距或以上变量 均值(分布正态)中数(分布偏态) 集中量数的优缺点:优点 缺点众数 计算快捷 样本稳定性差对于命名

17、型数据特别有用 中数 不易受极端分数影响 在一定程度上样本稳定性差适用于有不确定数值的数据均值 样本稳定性好(较小受抽样变动影响) 对离散性数据不适用与方差有关 易受极端数据影响分布形状与集中趋势量数的关系:正偏态:众数 中数 均值负偏态:均值 中数 众数差异量数(Variability)分布的第三个特征 -变异性(Variability ).变异数是对于分布的延伸和聚合状态程度的定量化描述变异数越高,表明分数间的差别大, 变异数越小,表明分数间越近似.三种差异量数: 全距 (range), 标准差 (standard deviation), 和四分位距(interquartile range

18、)全距 (range)全距是分布分数最大值(maximum) X 的精确上限与分布分数最小值 (minimum) X 的精确下限的差值。用全距描述分数变异性的局限:该统计量只依据分布中的两个极端值,未利用到分布的大部分信息-不敏感,不稳定,适用于初步检查,如分组的确定。注意:如果分数是连续型,必须用精确上下限。四分位距(interquartile range)用 50%,25% 和 75%的百分位数,分布被分成 4 部分。IQR=2*SIQR四分位距就是 75%百分位数与 25%百分位数间的距离. 它代表分布中间 50%的距离.对于连续性变量,使用插入法确定百分位数为 25、75 的自变量取值

19、。稳定性,敏感性较差,无法进行代数运算,常与中数配合使用。标准差 (standard deviation)量度了分布中的每一个个体与某一标准偏移的距离, 这个标准就是均值最重要, 最常用的差异量数考虑了分布中的所有信息-灵敏,稳定,可进行代数运算,但受极端数据影响较大。标准差计算的逻辑步骤:1)x-m=离差分数,和方 SS=离差平方求和(满足最小平方原理) ,SS= (X-m)2,具体计算时 SS = SX2 - (SX)2/n,可以直接利用 x 的值。2)方差: 定义公式总体 s2=SS/N样本 s2=SS/(n-1) 考虑样本常常比其所属的总体较少变异性,标准差的计算需做校正.标准差 s=

20、sqrt( s2)如果样本统计量高估或低估了总体参数,它就称为有偏估计如果用样本统计量作总体方差,就低估了总体方差,是有偏估计粗略估计均值和标准差:拇指原则:对于对称分布,均值常常在分布的中点,标准差常常在全距的 1/4 左右。标准差的意义:34% 48% 50% 可代数运算标准差的性质1) 对分布中的每一个分数加上一个常数不会改变其标准差.2) 对分布中的每一个分数乘上一个常数,所得分布的标准差是原分布的标准差乘上这个常数.总标准差的合成,分组数据使用每组中点数据进行计算。应用:差异系数,标准分转化。差异系数:CV=s/m 描述有绝对零的等距数据的离散程度,相对差异量,无统计意义。比较三种离

21、中量数极端分数: 全距(range) 受影响最大 , IQR 受影响最小样本大小: 全距(range) 可能随 n 的增加而增加 , IQR & s 不会样本选取:从同一总体中多次取不同样本,全距(range) 没有稳定的值, 但 IQR 和 S 是稳定的,不应波动很大对于有不确定值的分布, 全距 或 S 都无法求得, IQR (或 SIQR) 是唯一的选择对于偏态分布,IQR 比 s 常用差异量数的优缺点:优点 缺点样本稳定性差全距 计算快捷 受极端数值影响(不可靠)可能与样本量有关(不灵敏)四分位差 不易受极端数值影响 在一定程度上样本稳定性差(未考虑全部数据)适用于有不确定数值的数据 不

22、敏感标准差 样本稳定性好 受极端数值影响(偏态分布中使用四分位距)包含最多信息(反应灵敏)考虑使用差异量数时,需同时考虑对应的集中趋势量数Tips避免错误:计算前应先对均值和标准差作个粗略的估计计算 SS 应作表不要根据次数分布表计算 SS总体和样本的标准差公式不同,因此应先确定数据是来自总体或样本在 SS 的计算公式中,无论总体或样本都是 n 而不是 n-1。心统第二次小测,四五章复习提纲-推论统计初步第四章 Z 分数 概率 正态分布 二项分布Z 分数: z=(X- )/ 原始分数与 Z 分数的相互转化(, 未必代表正态分布,只是分布的均值与标准差而已)Z 分数可以解释原始分数的含义,也可以

23、将整个分布标准化。-可比,可加(同质性) ,明确,稳定。标准分布:原始分布按照上式转换为 Z 分数分布,即为标准分布。特征:Z 分数分布与原始分布的形状完全相同,分数所在相对位置(相对位置量数-明确性)亦完全相同(便于分数间相对比较-可比性,稳定性) 。标准分布均值为 0,标准差为 1。若原始分布为正态分布,标准分布为一标准正态分布。概率:推论统计的基本概念。推论统计与后验概率。概率:表明随机事件出现的可能性大小的客观指标随机取样应满足以下两个条件: 1. 总体中的每个个体有同样的机会被选择 (随机因素决定,排除主观随意性,主观能动性)2. 如果样本中要选择多于一个的个体,每次选择的概率应当恒

24、定回置取样 概率的性质:非负,必然事件为 1,不可能事件为 0,0、1 之间。互不相容事件可加,独立事件可乘。分类:连续 离散正态分布(一族分布)-对称性,单峰性,渐进性。正态曲线:曲线函数,钟形,呈对称分布,单峰,其均值、中数、众数对应于同一个数值,正态分布中各差异量数比例固定。大部分的原始分数都集中分布在均值附近, 极端值相对而言是比较少的。曲线两端向靠近横轴处不断延伸,但始终不会与横轴相交。 是密度曲线 (并非次数曲线),曲线下方的面积总和必定为 1。确定分数对应的的百分位数:转化为 Z 分数,查表,可能会用到插值法。确定百分位等级对应的百分位点:查表得对应的 Z 分数,可能用到插值法,

25、转化为原始分数。四分位距:Q3 对应的 Z 分数为 0.67。固定比率:Z=0.25 9.87% Z=0.67 25% Z=1 34.13% Z=2 47.72% Z=3 49.87%95%的分数会落入-1.96 与 1.96 标准差之间. 95%的分数会落入 1.65 标准差以左. 99%的分数会落入-2.58 与 2.58 标准差之间 .99%的分数会落入 2.33 标准差以左.99.9%的分数会落入-3.30 与 3.30 标准差之间。应用:化等级评定为测量数据,测验分数正态化(已知分数分布应该为正态:原始分数-各组中点百分等级-Z 分数非线性转换) ,等级评定时确定人数(六西格玛) 。

26、二项分布:一次试验只可能有两种结果,实验次数事先设定,一次实验间独立同分布。性质:阶跃式概率直方图,p=q 时,对称;否则,偏态(n 大,偏态趋于正态)B(n,p) n 足够大时 (pn 10 和 qn 10),趋于正态分布。均值与标准差:=np =sqrt(npq)-每次抽取,方差为 pq,那么 n 次抽取方差为 npq,独立变量 Var( X1+X2)=Var (X1 )+Var(X2) 原始分数由此标准化利用正态分布表求二项分布的概率(解决机遇问题):正态分布中 X 的值是一段, 而并非一点, 所以当二项分布近似为正态分布时,需要考虑精确上下限。因为我们是在用连续型分布 (正态) 来估计

27、离散型分布的值.第五章 样本均值分布 假设检验初步随机样本:抽到的概率 5%-95%样本均值分布 (distribution of sample mean): 总体中可抽取的所有可能的特定容量(n)的随机 样本的均值的集合。 (明确均值的含义!投掷骰子实验,样本均值=总点数/投掷次数,摸球实验,设黑球为 1,白球为 0,样本均值=总分/摸取次数)-不同于样本分布抽样分布 (sampling distribution ): 总体中可抽取的所有可能的特定容量分布的统计量所形成的统计分布。可用于推论总体。样本均值分布是抽样分布的特例 目的:能通过样本均值对总体均值做出最佳估计。骰子实验:n=1 时

28、接近矩形分布 n=2、5、10 极端值变少,趋于正态分布样本均值分布的特性:形状:样本均值的分布形状接近正态分布(n 较小且原始分布不为正态时,则不是正态分布). 原始分布即为正态分布时;或者当 n 较大时(30 以上), 样本均值的分布几乎是完全的正态分布. 而不在乎原始分布的形状。均值:样本均值的期望等于总体的均值(总体的均值-总体中独立同分布随机变量的均值)。变异性:样本均值分布的标准差为标准误。X 的标准误=X = X 与 的标准距离. 这个统计量的主要目的和用途是告诉我们样本均值对总体均值的估计是否准确. 换言之,取样误差是多大.(衡量样本均值变分布异性,标准差是衡量次数分布的变异性

29、)总体方差越大, 样本均值的方差越大。样本容量(n) 越大,样本越能准确地代表总体. 这个规律叫做大数定律x=/sqrt(n) -由独立随机变量和的方差为变量方差和,再考虑均值需除n中心极限定律 (Central Limit Theorem) 综合了样本均值分布的特性:形状,均值,方差 定律:对于任何均值为 ,标准差为 的总体分布(如何理解此总体分布?应该指独立同分布随机变量,不要求正态分布),样本容量为 n 的样本均值的分布,随着 n 趋近无穷大时,会趋近均值为 ,标准差为 /sqrt (n)的正态分布。因此,当 n 足够大时(30 或以上),MN(,/sqrt(n) )样本均值分布与概率:

30、将总体均值转化为 Z 分数,求出概率,注意精确上下限的问题。样本容量越大,样本稳定性越高。假设检验假设检验 (Hypothesis testing)是一种用样本数据来评价有关总体的某一假设的可置信性的推论程序虚无假设:无差异的基本思想:假设虚无假设为真,推出违反逻辑、经验、常识的不合理现象(小概率事件原理,认为小概率事件在一次试验中不可能发生) ,以否定虚无假设。步骤:陈述虚无假设(可以直接检验,希望实验反驳)-写出式子即可,研究假设(希望实验证实,但不能直接检验,故设置虚无假设) ;选择检验统计量,设定决策标准,显著性水平,单边 or 双边(确定临界区域) ;收集数据,计算样本统计量;作出决

31、策- 需要有文字结论。拒绝 H0,样本均值与总体均值有显著差异。接受 H0,样本均值与总体均值没有显著差异,误差由抽样误差导致。事先设定拒绝虚无假设的标准,为推断提供客观的依据,通常显著性水平为 0.05。假设检验可能的错误:一类错误-错误拒绝了正确的虚无假设(弃真) ,侦查到不存在的差异、效应,二类错误-错误接受了错误的虚无假设(取伪) ,未侦查到存在的差异、效应。显著性水平(此水平已经超越了抽样误差的限度,差异具有统计学意义了)规定了一类错误的概率。样本容量一定时,两类错误的概率不能同时减少。增加样本容量可以在控制第一类错误显著水平不变的同时,降低第二类错误。推论统计不可能避免犯错误。显著性水平提高,意味着 a 值降低。统计结论显著并不意味效果显著。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 中等教育 > 小学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报