1、1、黄底的是听录音自己加上去的(因看不到,无法知道所加是否正确)。第一章 绪论心理统计:心理统计是研究心理学科的科学方法和工具,是统计学的原理和数学方法在心理学领域中的应用。心理统计分为描述统计和推论统计两大部分。描述统计:是把实验中所得到的数据进行概括的整理,得出实验者可利用的信息,用表和图将实验数据形象地表示出来,描述统计的指标有三类,即集中量数、离中量数和数据间的相关。集中量数,是指一组数据具有代表性的指标,如,平均数、中数、众数。离中量数,表示一组数据分散程度的指标,如,四分差,标准差,方差。数据间的相关,是表示成对的两组数据之间的关系的指标。进行心理实验是为了发现心理现象的客观规律。
2、心理统计将研究对象的全部称为总体,从总体中抽出的参与实验的部分称为样本。推论统计就是从样本的数量特征去推论总体的数量特征。它包括一系列的统计程序:推论的假设、推论的方法步骤和检验推论的可靠性的各种方法等。描述统计和推论统计是相辅相成,描述统计是推论统计的基础,只有描述统计准确无误,推论统计才具有意义。第二章 数据的初步整理实验数据的类型:计数数据:是准确数,它是一个一个数出来的。数据形式为计数数据的变量称为离散型变量。测量数据:是近似数。测量数据是通过测量工具得到的。数据形式为测量数据的变量,称为连续性变量。上限:就是一个数的最末位加上半个单位。下限:就是一个数的最末位减去半个单位。用表整理实
3、验数据常用的表格有三种:原始数据表(原始记录表)、次数分布表、实验结果表 全距:就是数据中最大数值的上限与最小数值下限的差。组距:就是某一组数据上限与下限的差。中点:符号 X。假设数据均匀地分布在组距之间,这一组数值的代表点叫中点。它是这一组数值的上限与下限中间一点的数值。(计算中点的简单方法是两个数相加,除以 2)组 距组 距 组 上 限 组 下 限下 限上 限中 点 21212比例:符号小写 p。部份比全部的比值就是比例。比例是将全部数据作为一个整体。定总量为 1,部份为分量,分量总是总量的几分之几,用小数或分数表示,比例值永远小于 1.累加次数 cf:最底组 cf 就等于 f,上一组 c
4、f 等于下一组的 cf 加上本组的 f,最高组的 cf 就是总次数。累加次数百分数 cP:最底组 cP 就等于 P,上一组 cP 等于下一组的 cP 加上本组的 P,最高组的 cP就是 100%。表的名称放在表上面,图的名称放在图下面。图分为平面图和立体图。横轴称为 X 轴(横坐标),纵轴称为 Y 轴(纵坐标)。X 轴与 Y 轴垂直交于零点,横坐标常用于表示心理实验中的自变量(刺激变量)。纵坐标表示心理实验中的因变量。常用的图有直条图、直方图、曲线图(折线图)。当横坐标代表的数据是计数数据时只能画直条图和直方图。当横坐标代表的数据是测量数据时,可以画直方图和曲线图。直条图中的长方形是分开的,这
5、种图形只能表示计数数据,离散型变量。直方图的长方形是连在一起的,横坐标在表示测量数据时是以各组数的上下限标点的。直方图的纵坐标必须从 0 开始,这样才能反应真实情况。曲线图又称折线图,是用线段连接各组次数点绘制而成,可用于多组数据的比较。多用于表示测量数据,连续型变量。包括多边图和累积曲线图。多边图的横轴用各组的中点标点。累积曲线图的横坐标是以组上限标点的。正态分布又称正态曲线和钟形分布。它是连续性随机变量的概率分布形态。正态分布的曲线是中间高,两侧逐渐下降,两端无限向横轴延长并永远不与横轴相交,两侧完全对称的钟形曲线。当多数数据集中在曲线的一端,而少数数据在曲线的另一端,数据分布的形态就产生
6、了偏斜。当偏斜的一边趋向正数的方向时,叫正偏态。当偏斜的一边趋向负数的方向时,称为负偏态。双峰分布:在作完图形之后,有时我们会发现作出的曲线出现了高低差不多的两个峰,这时就发生了双峰现象,两个高峰被一个低峰的组隔开,画出来的图就表现为双峰。双峰现象产生的原因有两个,第一,由于在分组时组距选择得不当出现了双峰,这样出现的双峰叫假双峰,第二由于数据中混有性质不同的两种数据出现的双峰,这则是真正的双峰。第三章 集中趋势的测量集中量数:表示数据集中趋势的指标叫做集中量数,它是一组数据的代表值,比起个别数据来,更能准确地反映所研究的事物和现象的真实情况,是真值最好的估计值。常用的集中量数有三种:平均数、
7、中数、众数。平均数:是指算术平均数,符号 ,集中趋势的重要指标,表示一组数据的平均值,当数据比较X集中,分布比较均匀,没有极端数值,我们就用平均数来代表这组数据的集中趋势。平均数是集中趋势中代表性最大,最稳定的数据指标。极端数值:一组数据中存在比其它数大得多或小得多的个别数据,该个别数据就是极端数值。当数据中出现极端数值,就不适宜用平均数来表示集中趋势,而应该改用中数。平均数公式: NX-10-1 加权平均数-简单应用概念:加权平均数符号 。已知几组数据各自的平均数,又知道这几组的数据个数不相等时, WX需要计算总平均数,就一定要用加权平均数方法计算总平均数。公式: nXW)(使用加权平均数的
8、条件:已知各组平均数,各组人数不相等求加权平均数的注意事项:一定要写单位加权百分数公式: nPW)p(-平均数是最严谨的集中量数。平均数是一组数据的重心。它像一个平衡的天平的支点。比它大的数减平均数得正差,比它小的数减平均数得负差,所有的正差负差加起来等于零。每一个数据减去平均数所得的差叫离均差。该特点定义为:离均差之和等于零。用公式表示: (X )0中数:符号 Mdn,是一组按大小排列的数据中位置居中的那个数,它将数据分为大的一半和小的一半。当数据存在有极端数值时,我们就用中数来表示数据的集中趋势。中数使用的条件:当一组数据有极端数值时,用中数表示极端数值计算步骤:排序、找位置(位置=(n+
9、1)/2)、求值。计算中数的几种情况:(1)当数据个数为奇数,且中数的位置处无相同数据时计算中数的方法:中数位置=(n+1)/2;该位置的数值为中数。(2)当数据个数为偶然,且中数位置处无相同数据时计算中数的方法:中数位置处于两个数之间;中数位置=(n+1)/2;Mdn(小+ 大)/2(3)当数据个数为奇数,中数的位置有相同数据时计算中数的方法:(见课本 P28 例题 3-7)(4)当数据个数为偶数,中数的位置有相同数据时计算中数的方法:(见课本 P28 例题 3-8)对中数而言,重要的是位置而不是数值的大小。中数对数据中的其他数据数值的变化不敏感。众数:符号 Mo。众数就是在数据中出现次数最
10、多的那个数。使用它可以最快地了解数据的集中趋势,但它是一个较粗糙和极不稳定的指标,在正式研究结果中很少采用。需要很快地知道集中趋势时,需要使用众数。需要看一下 P32-33,知道了解(见 P22 图 3-1)。第四章 离中趋势的测量差异量数:表示离中趋势的指标叫差异量数(离中量数),差异量数表示一组数据的分散程度(离散程度),差异量数的指标有全距、四分差、标准差和方差、离中系数等。离中量数大,数据分散,平均数代表性小;离中量数小,数据集中,平均数代表性大;离中量数为零,数据相等,平均数代表性最大。全距:是一组数据中最大数的上限值与最小数的下限值的差。它是最简单的差异量数,表示数据的离散程度,全
11、距大,差异大,数据分散;全距小,差异小,数据较集中。百分点与 Pp 百分位 RX ,百分位和百分点是同一事物的两个侧面,百分等级表示的是位置,百分点表示的是该位置上的数值。利用百分点和百分等级可以描述某个个体与整个分布的关系。百分等级:一个分数的百分等级是低于这个分数的人占总人数的百分比。百分点:指属于某个百分比占的具体数值。例题:今年高考文科最高分为 690 分,最低分为 105 分,计划录取 1/2,问录取分数线是多少。,求出 X 则为录取分数线。(录音第 8 课后半部分)1056951X中数的百分点是 50%,中数的百分等级是 50四分差:符号 Q;表示按大小顺序排列的一组数据中间 50
12、%个数据的离散程度的指标。四分差的计算公式: 213在对称的分布中:Q 2Q 1=Q3Q 2在正偏态分布中:Q 2Q 1Q 3Q 2在负偏态分布中:Q 2Q 1Q 3Q 2Q2:即中数表示为 Mdn,号 Mdn,是一组按大小排列的数据中位置居中的那个数,它将数据分为大的一半和小的一半。也称之第 2 个四分点,第 50 个百分点(概念)Q1:中数是把数据分成两半,把其中较小的一半再分成两半的那个点就是 Q1, 也叫第 1 个四分点,第 25 个百分点。(概念)Q3:把中数分成两半,把其中较大的一半再分两半的那个点就是 Q3,也叫第三个四分点,第 75 个百分点。(概念)-10-2 四分差计算简单
13、应用(录音第 9 课)定义:四分差:符号 Q;表示按大小顺序排列的一组数据中间 50%个数据的离散程度的指标。使用条件:当一组数据中存在极端数值,集中量数就用中数,离中量数就须用四分差。计算步骤:(1)排序(2)找位置(Q 1、Q 2、Q 3):Q 2(n+1)/2;Q 1(n+1)/4;Q 3(n+1)3/4;(3)求 Q1、Q 2、Q 3 的值。(4)用 求 Q。1判断原理:成绩好坏反应快慢等用集中量数指标;比较分散程度或平均数代表性用离中量数。依据:Q 大,数据分散,平均数代表性小;Q 小,数据集中,平均数代表性大;见:课本 4-3(见 P41)例 1:两组被试做同一次心理测验,各人得分
14、如下表:被试 一 二 三 四 五 六 七 八甲组 4 7 6 8 3 7 16 5乙组 12 6 10 9 8 10 5 6(1)分别计算甲乙两组 Q1、Q 2、Q 3(2)比较两组被试测试成绩。(3)比较两组被试成绩分散程度,哪一组平均数代表性大。先做甲组:甲组的顺序:3、4、5、6、7、7、8、16因为有极端数值 16,所以计算中数,离中量数用四分差。做题时直接标上箭头(不用写找位置的公式)求值:Q 14.25;Q 26.5;Q 37.75;利用公式求 Q: 1.75125.47计算乙组:乙组的顺序:5、6、6、8、9、10、10、12求值:Q 16.25;Q 28.5;Q 310.75;
15、利用公式求 Q: 2.25125.670解(1):甲组 Q14.25;Q 26.5;Q 37.75;乙组:Q 16.25;Q 28.5;Q 310.75;解(2):因为有极端数值,比较两组被试测验成绩,我们选用集中量数指标中数来比较。因为甲的中数为 6.5,乙的中数为 8.5,因为甲组小于乙组,所以乙组成绩较好。(不知道为什么录音上乙组中数算得是 7,有可能是乙组数据我听错一位,不过知道怎么解题就成了)解(3):因为有极端数值,集中量数用中数,离中量数须用四分差来比较分散程度。Q 大,数据分散,平均数代表性小;Q 小,数据集中,平均数代表性大。因为 Q 甲 1.75,Q 乙 2.25,所以乙组
16、成绩分散,甲组平均数代表性大。例 2:两组被试解决问题所用时间如下表(单位:分钟):被试 一 二 三 四 五 六甲组 4 2 45 1 5 3乙组 7 1 5 3 9 11(1)甲乙两组中数和 Q。(2)哪一组解决问题快。(3)哪一组分散。选用比较指标。求甲组,首先排序:1、2、3、4、5、45记得标上箭头中数(Mdn)Q 23.5Q11.75;Q 315利用公式求 Q: 6.62521375.求乙组:首先排序:1、3、5、7、9、11中数(Mdn)Q 26Q12.5;Q 39.5;利用公式求 Q: 3.52135.9解(1)甲组中数为 3.5,Q6.625;乙组中数为 4,Q3.5解(2)因
17、为有极端数值,所以选用集中量数指标中数来比较。甲组中数为 3.5 小于乙组中数 6,所用时间较少,所以甲组解决问题快。解(3)因为有极端数值,集中量数用中数,离中量数须用四分差来比较分散程度。Q 大,数据分散,平均数代表性小;Q 小,数据集中,平均数代表性大。因甲组 Q6.625 小于乙组 Q3.5,所以甲组分散程度大。例 3:某校英语测验成绩如下:性别 一 二 三 四 五 六 七 八 九 十 十一 十二女 81 73 76 85 78 82 75 71 81 74 76 84男 71 76 74 74 77 69 71 72 70 73 70 98(1)男生女生 Q1、Q 2、Q 3。(2)
18、男生女生成绩谁高谁低。(3)哪组成绩较分散,哪组集中趋势代表性大。解:女生成绩排序:71、73、74、75、76、76、78、81、81、82、84、85中数(Mdn)Q 277Q174.25;Q 381.75利用公式求 Q: 3.752125.74.8男生成绩排序:69、70、70、71、71、72、73、74、74、76、77、98中数(Mdn)Q 272.5Q170.25;Q 375.5利用公式求 Q: 2.6252125.70解(1):女生成绩:Q 174.25;Q 277;Q 381.75;男生成绩: Q170.25;Q 272.5;Q 375.5解(2):因为有极端数值,所以选用集
19、中量数指标中数来比较男生女生成绩。女生成绩中数为77,男生成绩中数为 72.5,所以女生成绩高,男生成绩低。解(3):因为有极端数值,集中量数用中数,离中量数须用四分差来比较分散程度。Q 大,数据分散,平均数代表性小;Q 小,数据集中,平均数代表性大。因为 Q 女 3.75 大于 Q 男 2.625,所以女生成绩分散大,男生成绩集中趋势代表性大。-AD:平均差,它是离中量数指标, ,这个公式表示每个数与平均数的差的绝对nXAD值和的平均值。方差:符号 S2,又称变异数,它是离中量数常用指标, ,它是以数据中每一数值与nS22)(均值的差的平方和的均值作为离散程度的指标。标准差:符号是 S,是离
20、中量数常用指标, ,表示每个数与平均数的差的平方和的NX2)(均值的正方根。-10-3 CV(离中系数)计算简单应用(录音第 12 课)CV(离中系数)定义:CV 是表示离中量数的相对量指标。使用条件:单位不同,单位相同但平均数相差较大,我们用 CV 来表示离散程度,它的公式:。10XSCV判断原理:CV 大,数据分散,平均数代表性小,CV 小,数据集中,平均数代表性大例 1:下面是两个年龄组,被试运动时间,单位时间:秒被试 一 二 三 四 五 六 S青年 8 9 7 10 11 9 1.14老年 16 19 10 10 15 36 1.86(1)计算两组平均值。(2)计算两组 CV 值。(3
21、)哪一组被试的平均代表性大,为什么。解(1) 9 秒青X610798 17.67 秒老 356解(2)因为青年组和老年运动时的平均值相差较大,所以用相当对指标离中系数 CV 来表示离散程度。 1001310XSCV青 94. 10011老 67.8解(3)CV 大,数据分散,平均数代表性小,CV 小,数据集中,平均数代表性大,因为 CV 青13 大小 CV 老 ,所以老年组的平均数代表性大。例 2:小学一年级二年级各 5 个,做净化实验,发生的错误次数如下:被试 一 二 三 四 五 S一年级 17 13 10 19 11 3.87二年级 4 1 3 5 2 1.58(1)求两个年级的平均数和
22、CV 值。(2)哪个年级错误次数比较分散。(3)哪个年级错误次数平均代表性大。解(1): 14 次一 年 级X5190317 3 次二 年 级 24因为两个年级错误次数平均数相差较大,所以用 CV 来比较他们的离散程度。281047.10一 年 级 XSCV53.二 年 级解(2):CV 大,数据分散,CV 小,数据集中,因为 CV 一年级 =28 小于 CV 二年级 53,所以二年级错误次数比较分散。解(3):CV 大,平均数代表性小,CV 小,平均数代表性大,因为 CV 一年级 =28 小于 CV 二年级53,所以一年级错误次数平均数代表性大。例 3:下面是测量两组儿童食指两点阈,单位:毫
23、米被试 一 二 三 四 五 六 S盲人 3 1 1 2 2 2 0.75正常 6 4 7 3 4 5 1.47(1)求两组两点阈的平均值和 CV 值。(2)哪一组食指分辨能力较强。(3)哪一组两点阈比较一致,为什么不用 S 而用 CV 来比较。解(1): 毫 米盲 人 83.16213X毫 米正 常 .457461083.10盲 人 XSCV.47正 常解(2):(感觉性和感觉阈限成反比关系)两点阈跟分辨能力成反比关系,两点阈大,分辨能力弱,两点阈小,分辨能力强,因为 1.83 小于 4.83,所以盲人儿童的分辨能力强。盲 人X正 常解(3):CV 大,数据分散,CV 小,数据集中或一致,因为
24、 大于 ,所41盲 人CV30正 常V以正常儿童的两点阈比较一致。因为盲童和正常儿童的两点阈的平均数相差较大,所以不用标准差 S 而用离中系数 CV 来比较他们的离散程度。-第五章 正态分布与 z 分数、T 分数决定曲线位置和形态的关键数值是分布的平均数 ,和标准差 。 值决定曲线最高点在横轴上的位置。 值越大曲线在横轴上的位置越向右。 值决定曲线的形状,是高耸还是矮平。任何特定的正态分布的确定的性质是由公式中的 和 决定的。标准正态曲线:在为数众多的正态曲线中,有一条正态曲线,它的平均数 等于 0,标准差 等于1,统计中规定它为标准正态曲线,任何一条正态分布曲线都可以转化为标准正态曲线,方法
25、就是将原始分数转变为 Z 分数。z 分数:也叫标准分数,它是公式是 ,它是以标准差为单位去度量某一原始分数偏离SXz平均数的距离,从而确定这一数据在全体数据中的位置。(原始分数与平均数的差是标准差的几倍或几分之几。)z 分数的性质: (z 分数的平均数等于 0), 或 S1(z 分数的方差和标准差等于 1)02zT 分数就是以平均数为 50,标准差为 10 进行转换后的分数:公式: T50+10 (z)PS:离差智商公式:IQ100+15zz 分数等于 1 时,较大部分面积为 0.8413;较小部分面积为 0.1587例:某班 100 人,语文考试成绩 60 分,S8 分。X(1)求 55 分
26、和 75 分的标准成绩.(2)假设服从正态分布,高于 76 分的人占全部人数的百分之几?(3)低于 52 分的人,占全部人数的百分之几?解(1):利用公式 求标准成绩。SXz -0.625SXz58605 1.875757解(2): 2SXz768607查正态分布表 z=2 较小部分的面积是 0.0228,所以高于 76 分的人占全部人数的 2.28%解(3) -1z525查正态分布表 z=-1 较小部分的面积是 0.1587,所以低于 52 分的人占全部人数的 15.87%Z 分数在统计检验中的重要临界值,即两事物差别显著不显著的分界线。1.65 是单侧检验, .05 显著水平的临界值;(
27、Z 分数为 1.65 时,大面 0.95,小面 0.05) 2.33 是单侧检验, .01 显著水平的临界值;( Z 分数为 2.33 时,大面 0.99,小面 0.01)1.96 是双侧检验, .05 显著水平的临界值;( Z 分数 1.96 时正态曲线下两端各有 0.025 面积)2.58 是双侧检验, .01 显著水平的临界值;( Z 分数 2.58 时正态曲线下两端各有 0.005 面积)统计上常.05 和.01 作为检验的显著性水平的概率。第六章 数据间的相关相关的分类:相关性质:正相关、负相关;相关程度:完全相关、部分相关、零相关;相关又分直线相关和曲线相关(此课本不讲曲线相关);
28、直线相关:等级相关、积差相关;相关:两个变量之间存在某种相互关系,相关按性质分为正相关和负相关,相关按程度上分为完全相关、部分相关和零相关。相关性质:指正相关和负相关两种,正相关指一个变量和另一个变量按同方向变化,这两个变量是正相关;两个变量变化方向不一致或向相反方向变化为负相关。正相关:一个变量增加,另一个变量也跟着增加,一个变量减少,另一个变量也跟着减少,所以两个变量向同一方向变化,这两个变量呈正相关。例如数学成绩好,会计工作业绩也好,这两个则呈正相关。负相关:一个变量增加,另一个变量减少,一个变量减少,另一个变量则增加,所以两个变量向相反方向变化,这两个变量呈负相关。例如旷课天数越多,成
29、绩越差,这两个则呈负相关。相关程度:指两个变量之间的密切程度,相关程度分完全相关、部分相关和零相关。相关系数:符号为 r,用于表示两列变量之间相互关系的性质和密切程度的指标叫相关系数。 相关系数的范围 -1.00 r +1.00散布图:用来表示两个变量之间相关性质和相关程度的图解叫散布图。相关性质看符号,相关程度看数值;相关系数不能有倍数和几分之几的关系;两个变量之间有一定相关,但不一定有因果关系;请看散布图 P65;散布图越扁相关越高(大、密切);通过散布图,相关性质看方向(左上右下负、右上左下正),相关程度看形状(扁、圆、直线)积差相关:符号 r,公式 ,又称皮尔逊相关系数或称皮尔逊 r,
30、它是通过两个变量 zNzyx)(分数或标准分数的乘积之和的平均数计算出来的来表示两个变量相关性质和相关程度的数字指标。(它是利用两列变量的标准分数计算出来的,表示变量之间相关性质和程度的指标。)等级相关:符号为 ,公式 (此公式不用记和写) ,又称斯皮尔曼等级相关,通sr)1(62nDS过两个变量的等级差计算出来的表示两个变量相关性质和相关程度的数字指标。-10-4 等级相关系数的计算简单应用定义:等级相关:符号为 ,又称斯皮尔曼等级相关,通过两个变量的等级差计算出来的表示两个sr变量相关性质和相关程度的数字指标。公式: (D:两组数据的等级差;n:数据对的个数。 ))1(62rS步骤:(1)
31、排等级;(2)求 D;(3)求 ;(4)说明;sr注意事项:排序时两组必须按同一方向进行(都是从大到小或是从小到大);有相同数值时,以它们的等级平均值作为它们各自的等级;判断原理:判断相关性质看符号,相关程度看数值(小于 0.15 很低;小于 0.35 较低;0.45-0.50 中等;0.65 以上较高; 0.85 以上很高;)例 1:下面是 8 个被试在镜画的试验中,画一遍所需要的时间和错误次数如下表:被试 一 二 三 四 五 六 七 八时间(秒) 1 4 4 5 5 5 7 8错误次数 9 7 7 5 4 6 2 1(1)两组数据转化为等级。(2)利用公式求 sr(3)根据 说明时间和错误
32、次数的相关性质和程度。sr解(1):按从大到小排等级,求 D,求 D2被试 一 二 三 四 五 六 七 八时间(秒) 1 4 4 5 5 5 7 8R1 8 6.5 6.5 4 4 4 2 1错误次数 9 7 7 5 4 6 2 1R2 1 2.5 2.5 5 6 4 7 8D 7 4 4 -1 -2 0 -5 -7D2 49 16 16 1 4 0 25 49解(2) )1(62nrS 90.1862)(解(3)根据 -0.90 说明所需时间和错误次数呈很高的负相关,画一遍所需要的时间越短,错误s次数就越多。例 2:十个被试,视觉和听觉反应时间测试结果如下:被试 一 二 三 四 五 六 七
33、八 九 十视觉 RP 179 180 180 190 193 198 200 203 240 250听觉 RP 150 135 130 140 140 150 140 148 150 280(1)把两种反应时排等级(2)求等级相关 sr(3)说明两种反应时的相关性质和相关程度解(1)将两种反应时从大到小排等级,求 D,D 2被试 一 二 三 四 五 六 七 八 九 十视觉 RT 179 180 180 190 193 198 200 203 240 250R1 10 8.5 8.5 7 6 5 4 3 2 1听觉 RT 150 135 130 140 140 150 140 148 150 2
34、80R2 3 9 10 7 7 3 7 5 3 1D 7 -0.5 -1.5 0 -1 2 -3 -2 -1 0D2 49 0.25 2.25 0 1 4 9 4 1 0解(2): )1(62nDrS 57.010.62)( 解(3):根据 0.57 说明视觉反应时和听觉反应时存在中等程度的正相关,听觉反应快的人,sr其视觉反应也比较快。例 3:12 名学生在心理测验中的得分如下:学生号 一 二 三 四 五 六 七 八 九 十 十一 十二甲测验 43 42 49 37 51 36 57 31 56 51 49 46乙测验 6 3 14 6 1 24 1 12 5 21 1 11(1)将甲乙测验
35、排成等级(2)计算等级相关系数 sr(3)根据 值说明甲乙两测验之间的相关性质和程度sr解(1)将甲乙测验进行等级排列,求出 D,D 2学生号 一 二 三 四 五 六 七 八 九 十 十一 十二甲测验 43 42 49 37 51 36 57 31 56 51 49 46R1 8 9 5.5 10 3.5 11 1 12 2 3.5 5.5 7乙测验 6 3 14 6 1 24 1 12 5 21 1 11R2 6.5 9 3 6.5 11 1 11 4 8 2 11 5D 1.5 0 2.5 3.5 -7.5 10 -10 8 -6 1.5 -5.5 2D2 2.25 0 6.25 12.2
36、5 56.25 100 100 64 36 2.25 30.25 4解(2): )1(62nDrS 45.012.436)(解(3)根据 -0.45 说明甲乙两测验之间存在中等程度的负相关,甲测验得分高的,乙测验得分s低。第七章 推论统计由部分去推论全部的推论过程就是推论统计的内容统计推论是根据概率和逻辑学的原理进行的用随机样本的统计量去推测总体参数的程序又称为参数检验(概念)研究对象的全部称为总体由总体计算出来的综合指标称为总体参数或总体特征值由样本计算出来的综合指标称为样本统计量总体中抽出的部分称为样本误差主要有两种:第一种是系统误差,系统误差是由于抽样不当而造成的,用含有系统误差的样本去
37、推论总体,就会产生偏性估计导致推论错误。另一种是随机误差,也叫抽样误差,抽样误差是在实验时随机出现的,是不可控制的因素造成的。随机误差出现的规律是符合概率的原则的,如果样本中只含有随机误差,就可以用来推论总体。为了避免对总体的偏性估计,样本应该随机抽取,随机取样(概念)是指总体中的每一个个体,都有同等的机会被选中。自由度:符号 df,是指在统计推论时,能够独立变化的数据的数目。公式表示为 n-1。样本分布:从总体随机抽取许多 n 相等的样本,由这些样本各自的统计量分别可以构成各个统计量的次数分布,称为该统计的样本分布,最常用的是平均数的样本分布。大样本:样本容量 n30 的样本,为大样本,呈正
38、态分布;小样本:样本容量 n30 的样本,为小样本,呈 t 分布;平均数的标准误:符号 ,平均数样本分布的标准差称为平均数的标准误,表示构成平均数样本XS分布的所有平均数的离散程度。公式: 和nSX平均数差异的样本分布:是指分别来自于两个总体的许多对随机样本平均数的差异形成 的样本分布。当样本容量大于 30 时,该分布呈现为正态分布,当样本容量小于 30 时,呈现 t 分布。平均数差异的标准误:符号 ,表示构成差异的样本分布的所有差值的离散程度。是由两个总体DXS各自的平均数标准误合成的。.6826 置信区间: X1.95 置信区间: S96.99 置信区间: 582区间估计最常用的是.95
39、置信区间、.99 置信区间。.95、.99 称为置信度。通过随机样本平均数对总体平均数进行估计的方法有两种:点估计和区间估计。(1)点估计。点估计是由随机样本的统计值去估计总体参数值。估计的标准有无偏、有效、一致。在数理统计里有方法证明随机样本的平均数是总体平均数最好的点估计。点估计的不足是由于使用单一值的估计,因此不知估计的可靠性的大小。(2)区间估计:当总体平均数不知的情况下,可以由样本平均数去推总体平均数有多大可能落入的区间,同时也可能给出总体平均数有多大可能不在这个区间里,或者说推论一个总体平均数落入某一个区间出错的可能性有多大,这就是区间估计。当样本容量 n30 时,容易的变化对样本
40、分布的影响较大,容易增加一个或减少一个,样本分布的分布形态都有变化,此时的样本分布符合 t 分布的概率分布。(英国统计学有 W.S.Gosset,笔名Student 首先发现这个现象,并以他的笔名命名,称为 t 分布)已知样本平均数,标准差、样本大小,去推论总体平均数例:为了解某个党校学生每天花在学习的时间有多少,通过随机抽查,了解到 36 名学生每天学习的平均时间是 6.46 小时,标准差为 1.21 小时。求(1)平均数标准误 。XS(2)该校学生每天平均学习时间有 95%的可能在什么范围?(3)该校学生每天平均学习时间有 99%的可能在什么范围?解(1) 20.361.nSX解(2).9
41、5 置信区间: ;07.629.1469. XS;85.4.9. X该校学生每天平均学习时间有 95%的可能在 6.07 小时到 6.85 小时范围之间。解(3).99 置信区间: ;94.5.2X9606.58.2XS该校学生每天平均学习时间有 99%的可能在 5.94 小时到 6.98 小时范围之间。第八章 统计假设与单总体的假设检验虚无假设:符号 HO,从无差别开始假设,假设样本和总体的差异仅仅是 抽样误差,是符合概率原则的随机误差。样本与总体不存在真正的差异,样本与总体的实质等于 0,因此,虚无假设也叫做零假设或称为无差异假设。备择假设:符号 HA,备择假设是从有差别开始假设。假设样本
42、和总体的差异不仅仅有抽样误差,还包括样本与总体真正的差异,样本与总体的实质差异不等于零,备择假设也叫差异假设。推翻虚无假设,备择假设就成立,就说明样本与总体存在显著性差异,即总体与样本有真实的差异;接受虚无假设,就意味着备择假设不成立,就可以推论样本与总体不存在显著差异,样本与总体的差异仅仅是随机误差。显著水平( 或 P):是人为选择的推翻虚无假设的概率,在统计检验中用 P 来表示,常用的有.05和.01 显著水平,如果.01P.05,该差异就在.05 水平上显著,如果 p.01,该差异就在.01 水平上显著。第一类错误:是指当虚无假设不应被推翻时而被推翻了,即将随机误差当成了真正的差异。第二
43、类错误:指当应该推翻虚无假设时而没有推翻,即将存在的真实差异当成了随机误差。第九章 平均数差异的显著性检验两个总体没有差异:当比较不同总体是否存在差异时,需要分别从不同总体中抽取样本,计算出各自的样本平均数,两个总体的样本平均数之间总会存在差别,这个差别里如果仅包含抽样误差,说明两个总体没有差异,是相同的总体或者是同一总体。两个总体存在差异:当比较不同总体是否存在差异时,需要分别从不同总体中抽取样本,计算出各自的样本平均数,两个总体的样本平均数之间总会存在差别,这个差别里如果不仅包含抽样误差,还包含来自自变量不同水平的影响,就说明两个总体存在差异,两个样本来自不同总体。被试间实验设计:每个被试
44、只参加自变量一个水平的实验,两个实验条件各自独立,所得的数据是不相关的,所得的样本称为独立样本。被试内实验设计:每个被试参加自变量所有水平的实验,每个被试被多次测量,两个实验条件之间不独立,因此所得的数据是相关的。方差一致性检验:检验的目的是判定两个样本是否来自方差一致的总体。如果两个样本不是来自方差一致的总体,一个总体的数据比较分散,一个总体的数据相对集中,它们的总体平均数的代表性就不一致,分散的数据平均数代表性就小,集中的数据平均数代表性就大。是单侧还是用双侧是事先确定的双侧检验:当研究的问题仅仅是回答某一随机样本是否属于某一总体,或需要检验的两个总体谁强谁弱没有方向性,就会用到双侧检验。
45、双侧检验的大样本查正态分布表,临界值.05 水平为1.96;.01 水平为 2.58,小样本则根据不同的 df 查 t 表。单侧检验:如果研究的是某一样本平均数比总体平均数大还是小,这类研究的问题存在方向性,需要使用单侧检验。单侧检验的特点是带有方向性的,它的.05、.01 的临界值比双侧检验的小,大样本查正态分布表临界值为:.05 水平为 1.65;.01 水平 2.33。小样本根据 df 查 t 表,单侧检验比双侧检验容易达到显著性差异。-平均数差异显著性检验复杂应用独立/相关大样本平均数差异显著性检验已知: 、 ;S 1、S 2;样本30;没有 r/知道 r;1X2公式:平均数标准误: ;平均数差异的标准误: 、nX21XDXS;计算 z 值: ;2121XDSrS XS21判断原理:求得 z2.58,P.01,则平均数差异在.01 水平上显著;求得1.96z.05 ,则平均数差异不显著。复 1:相关大样本平均数差异显著性检验例题 1:已知 81 人,分别采用汉字和图画两种作业方式,结果如下:求(1)求 、 。1XS2(2)求 D(3)求 z。