1、社会统计学复习题一、名词解释1、社会统计学 2、中位数 3、众数 4、点估计:所谓点估计,就是根据样本数据算出一个单一的估计值,用它来估计总体的参数值。5、区间估计:所谓区间估计,就是计算抽样平均误差,指出估计的可信程度,进而在点估计的基础上,确定总体参数的所在范围或区间。6、置信区间:置信区间就是我们为了增加参数被估计到的信心而在点估计两边设置的估计区间。7、消减误差比例:变量间的相关程度,可以用不知 Y 与 X 有关系时预测 Y 的误差 ,减去知道 Y 与 X 有关系时0E预测 Y 的误差 ,再将其化为比例来度量。将削减误差比例记为 PRE。1E8、因果关系:变量之间的关系满足三个条件,才
2、能断定是因果关系。1)连个变量有共变关系,即一个变量的变化会伴随着另一个变量的变化;2)两个变量之间的关系不是由其他因素形成的,即因变量的变化是由自变量的变化引起的;3)两个变量的产生和变化有明确的时间顺序,即一个在前,另一个在后,前者称为自变量,后者称为因变量。9、正相关与负相关:正相关是指一个变量的值增加时,另一变量的值也增加;负相关是指一个变量的值增加时,另一变量的值却减少。10、散点图:将相关表所示的各个有对应关系的数据在直角坐标系上画出来,以直观地观察 X 与 Y 的相互关系,即得相关图,又称散点图。11、同序对:在观察 X 序列时,如果看到 ,在 Y 中看到的是 ,则称这一配对是同
3、序对。ijXij12、异序对:在观察 X 序列时,如果看到 ,在 Y 中看到的是 ,则称这一配对是异序对。13、大数定理:当我们的观察次数 n 趋向无限时,随机事件可能转换为不可能事件或必然事件。即,在大量观察的前提下,观察结果具有稳定性。二、选择题6下面能进行除法运算的测量尺度是( )A 定比尺度 B 定类尺度 C 定距尺度 D 定序尺度 7教育程度是( )的测量。A 定比尺度 B 定类尺度 C 定距尺度 D 定序尺度 8智商是( )的测量。A 定比尺度 B 定类尺度 C 定距尺度 D 定序尺度 9籍贯是( )的测量A 定比尺度 B 定类尺度 C 定距尺度 D 定序尺度 10在社会统计学中,
4、 ( )是反映集中趋势最常用、最基本的平均指标。A 中位数 B 算术平均数 C 众数 D 几何平均数 11关于学生 t 分布,下面哪种说法不正确( B ) 。A 要求随机样本 B 适用于任何形式的总体分布 C 可用于小样本 D 可用样本标准差 S 代替总体标准差 12在统计检验中,那些不大可能的结果称为( D )。如果这类结果真的发生了,我们将否定假设。A 检验统计量 B 显著性水平 C 零假设 D 否定域 13在用样本指标推断总体指标时,把握程度越高则( B ) 。A 误差范围越小 B 误差范围越大C 抽样平均误差越小 D 抽样平均误差越大14当 x 按一定数额增加时,y 也近似地按一定数额
5、随之增加,那么可以说 x 与 y 之间存在( A )关系。A 直线正相关 B 直线负相关 C 曲线正相关 D 曲线负相关15评价直线相关关系的密切程度,当 r 在 0.50.8 之间时,表示( C ) 。A 无相关 B 低度相关 C 中等相关 D 高度相关16相关分析和回归分析相辅相成,又各有特点,下面正确的描述有( D ) 。A 在相关分析中,相关的两变量都不是随机的;B 在回归分析中,自变量是随机的,因变量不是随机的;C 在回归分析中,因变量和自变量都是随机的;D 在相关分析中,相关的两变量都是随机的。17关于相关系数,下面不正确的描述是( B ) 。A 当 0 1 时,表示两变量不完全相
6、关;rB 当 r=0 时,表示两变量间无相关;C 两变量之间的相关关系是单相关;D 如果自变量增长引起因变量的相应增长,就形成正相关关系。 18欲以图形显示两变量 X 和 Y 的关系,最好创建( D ) 。A 直方图 B 圆形图 C 柱形图 D 散点图19两变量 X 和 Y 的相关系数为 0.8,则其回归直线的判定系数为( C ) 。A 0.50 B 0.80 C 0.64 D 0.9020在完成了构造与评价一个回归模型后,我们可以( D ) 。A 估计未来所需样本的容量B 计算相关系数和判定系数C 以给定的因变量的值估计自变量的值D 以给定的自变量的值估计因变量的值21两变量的线性相关系数为
7、 0,表明两变量之间( D ) 。A 完全相关 B 无关系 C 不完全相关 D 不存在线性相关22身高和体重之间的关系是( C ) 。A 函数关系 B 无关系 C 共变关系 D 严格的依存关系23在相关分析中,对两个变量的要求是( A ) 。A 都是随机变量 B 都不是随机变量C 其中一个是随机变量,一个是常数 D 都是常数24在回归分析中,两个变量( D ) 。A 都是随机变量 B 都不是随机变量C 自变量是随机变量 D 因变量是随机变量25一元线性回归模型和多元线性回归模型的区别在于只有一个( B ) 。A 因变量 B 自变量 C 相关系数 D 判定系数26以下指标恒为正的是( D ) 。
8、A 相关系数 r B 截距 a C 斜率 b D 复相关系数27下列关系中,属于正相关关系得是( A ) 。A 身高与体重 B 产品与单位成本C 正常商品的价格和需求量 D 商品的零售额和流通费率28、下列变量中属于定序变量的是( )A、门牌号 B、学生学号 C、职称等级 D、身高29、用具有频数最多的变量值来表示变量的集中值被称为( )A、众值 B、中位值 C、均值 D、四分位差30、标准差数值越小,则反映变量值( )A、越分散,平均数代表性越低 B、越集中,平均数代表性越高C、越分散,平均数代表性越高 D、越集中,平均数代表性越低31、下面不属于正态分布图特征的是( )A、有一条对称轴 B
9、、有一条渐近线C、有一个顶点 D、有 2 个单位的面积。32、直方图具备的特征是( )A、高度代表频次 B、宽度代表频次C、面积代表频次 D、各分段组可以分开33、采用回置法,从一副 52 张扑克牌里抽取两次,抽中两张红桃的概率为( )A、1/52 B、1/16 C、1/13 D、1/434、下列属于定类层次相关分析法的是( )A、斯皮尔曼系数 B、Lambda 系数 C、Gamma 系数 D、eta 系数35、当样本量 n=25 时,我们对其进行均值检验时,应该选用( )方法进行。A、Z 检验 B、F 检验 C、T 检验 D、上述三者都可以36、如果,X iX j ,Y iY j,那么,就称
10、被调查者 i 和 j 这一配对为( ) 。A、异序对 B、同序对 C、X 的同分对 D、Y 的同分对37、一般认为:积差系数 r 值等于 0.3 为( ) 。A、完全相关 B、高度相关 C、中等相关 D、无相关38、下列变量中不属于定类变量的是( ) 。A、车牌号 B、手机号 C、学历 D、性别39、数列 2、3、5、1、7、9、2 的中位值是( ) 。A、5 B、3 C、2 D、140、两个正态分布分别为:N(1,25)和 N(5,36) ,将两个正态分布作图,下列说法错误的是( ) 。A、前者图形的顶端更细小 B、前者图形更靠左C、后者图形的顶端更细小 D、后者图形更靠右41、直方图里,频
11、次由( )来表示。A、面积 B、高度 C、宽度 D、组距42、从一副 52 张的扑克牌中抽一张牌,抽到一张红桃或者方块的概率是( ) 。A、1/5 B、1/4 C、1/3 D、1/243、下列属于定类层次相关分析法的是( )A、斯皮尔曼系数 B、Lambda 系数 C、Gamma 系数 D、eta 系数44、从某公司抽取 200 名员工作为样本进行调查,进行推论分析时,除了( )外,其他三个都是我们采用 Z检验法的原因。A、样本容量数符合小样本要求 B、总体符合正态分布C、满足大数定理要求 D、样本容量达到大样本要求。45、如果,X iX j ,Y iY j,那么,就称被调查者 i 和 j 这
12、一配对为( ) 。A、异序对 B、同序对 C、X 的同分对 D、Y 的同分对46、区间估计里,置信区间内的置信度大小为( ) 。A、 B、 C、1- D、1-47、简单线性回归分析中,两变量的层次分别为( )A、定类定类 B、定类定序 C、定序定距 D、定距定距三、填空题1 ( )是指由调查者直接搜集的、未经加工整理而保持其原本状态的资料。 ( )是指经他人加工整理,可以在一定程度上被引用来说明总体特征的资料。2 ( )和中心极限定理为抽样推断提供了主要理论依据。3抽样推断中,判断一个样本估计量是否优良的标准是(无偏性) 、 (一致性) 、 (有效性) 。4在一副扑克牌中单独抽取一次,抽到一张
13、红桃或 K 的概率是( 1/4 ) ;在一副扑克牌中单独抽取一次,抽到一张红桃 K 的概率是( 1/52 ) 。 5不论总体是否服从正态分布,只要样本容量 n 足够大,样本平均数的抽样分布就趋于(正态)分布。6统计检验时,被我们事先选定的可以犯第一类错误的概率,叫做检验的( 显著性水平 ),它决定了否定域的大小。7假设检验中若其他条件不变,显著性水平的取值越小,接受原假设的可能性越( 大 ) ,原假设为真而被拒绝的概率越( 小 ) 。8参数估计,即由样本的指标数值推断总体的相应的指标数值,它包括点估计和( 区间估计 ) 。9变量间的相关程度,可以用不知 Y 与 X 有关系时预测 Y 的全部误差
14、 E1,减去知道 Y 与 X 有关系时预测 Y 的联系误差 E2,再将其化为比例来度量,这就是( 削减误差比例 ) 。10依据数理统计原理,在样本容量较大的情况下,可以作出以下两个假定:(1)实际观察值 Y 围绕每个估计值是服从( ) ;cY11根据资料,分析现象之间是否存在相关关系,其表现形式或类型如何,并对具有相关关系的现象之间数量变化的议案关系进行测定,即建立一个相关的数学表达式,称为( 回归方程 ) ,并据以进行估计和预测。这种分析方法,通常又称为( 回归分析 )12、变量层次一般分为 、 、 和 。13、统计按其内容主要包括两个方面: 分析和 分析。14、定类层次主要的集中趋势法是
15、,定序层次主要的离散趋势法是 。15、统计推论分为参数估计和 ,其中参数估计又分为 和 。16、置信区间与可信度之间是成 关系,即估计的区间越大,则可信度也就越 。17、根据样本计算出来的一切统计数字特征值被称为 ,总体值称为 。18、众数运用 层次变量的集中趋势分析,中位数用于 层次变量的集中趋势分析,均值用于定距层次变量的 分析,标准差用于定距层次变量的 分析。19、正态分布图的形状和位置主要由 和 决定。20、测量两个变量的相关系数时,首先考虑的是变量的 ,其次考虑变量间是否对称,最后最好选用具备 意义的相关系数。21、以样本的统计值来估计总体的参数值,有两大类做法,一类是 ,另一类是
16、,二者均要求样本是以 方法抽取的。22、某一孕妇生男生女纯属偶然现象,但全市出生的婴儿性别比例一直维持在 50%左右,这种现象称为 定理。23、假设检验时,首先需要做出 假设和被择假设,并以 假设为基础进行数据推导,如果我们的统计检验值落在 ,我们就应该接受被择假设。三、判断题1社会统计描述,即通过部分研究对象的统计资料对研究对象的总体的性质进行推论与归纳。 ( )2推论统计需要的统计资料相对而言较少,所以在人力、物力及时间等方面比较经济,研究和应用的范围也拓宽了许多。 ( )3无论分布曲线是正偏还是负偏,中位数都居算术平均数和众数之间。 ( )4在同样的显著性水平的条件下,单侧检验较之双侧检
17、验,可以在犯第一类错误的危险不变的情况下,减少犯第二类错误的危险。 ( )5统计检验可以帮助我们否定一个假设,却不能帮助我们肯定一个假设。 ( )6检验的显著性水平(用 表示)被定义为能允许犯第一类错误的概率,它决定了否定域的大小。 ( )7第一类错误是,零假设 H0实际上是错的,却没有被否定。第二类错误则是,零假设 H0实际上是正确的,却被否定了。 ( )8每当方向能被预测的时候,在同样显著性水平的条件下,双侧检验比单侧检验更合适。 ( )9.进行区间估计,置信水平总是预先给定的。 ( )10由于削减误差比例的概念不涉及变量的测量层次,因此它的优点很明显,用它来定义相关程度可适用于变量的各测
18、量层次。 ( )11不管相关关系表现形式如何,当 1 时,变量 X 和变量 Y 都是完全相关。 ( )r12不管相关关系表现形式如何,当 0 时,变量 X 和变量 Y 都是完全不相关。 ( )13通过列联表研究定类变量之间的关联性,这实际上是通过相对频数条件分布的比较进行的。而如果两变量间是相关的话,必然存在着 Y 的相对频数条件分布相同,且和它的相对频数边际分布相同。 ( )14如果众数频数集中在条件频数分布列联表的同一行中, 系数便会等于 0,从而无法显示两变量之间的相关性。( )15从分析层次上讲,相关分析更深刻一些。因为相关分析具有推理的性质,而回归分析从本质上讲只是对客观事物的一种描
19、述,知其然而不知其所以然。 ( )16、离散趋势是测量数据间的差异程度。 ( )17、两个定类变量间的相关系数范围在1,1间。 ( )18、相关系数 r 等于1,说明变量之间不存在相关关系。 ( )19、标准正态分布的曲线对称轴为 X=0。 ( )20、当样本量 n30 时,无论 n 如何增大,样本的统计值倾向稳定。 ( )21、参数估计就是在一定的抽样误差内设一个可置信的区间,然后联系到这个区间的精度,将样本的统计值推断为总体的参数值。 ( )22、假设检验与参数估计最终关心的都是总体的参数状况。 ( )23、利用样本对总体进行区间估计时,置信度越高,则区间就越窄。 ( )24、假设检验过程
20、中,如果统计检验值大于临界值,则拒绝零假设。 ( )25、在积矩相关分析结果 r=0,则说明两变量不呈直线相关。 ( )26、根据研究需要,可以将定距变量降格为定类变量进行分析。 ( )27、某公司员工的月收入标准差为 100 元,说明该公司员工收入差距大。 ( )28、直方图用于定类层次的变量作图。 ( )29、推论统计关注的是样本的统计值而不是总体的参数值。 ( )30、对大样本的假设检验选用 Z 检验法,主要是因为它满足正态分布。 ( )31、两端假设检验中,否定域的大小为 。 ( )32、样本容量多少与研究容许的误差大小呈正比。 ( )33、从同一总体中抽出的多个大样本的均值组成的数列
21、满足正态分布。 ( )34、如果两个变量是呈相关关系,那么它们一定呈因果关系。 ( )35、在积矩相关分析结果 r=0,则说明两变量不相关。 ( )四、计算题1某工厂 50 名职工每周工资数分配情况如下表,试求:(1)算术平均;(2)中位数;(3)众数。 工资数(元) 人数6062 36365 106668 206971 137274 4合计 502、某车间职工工资分布情况如下表,求该车间职工的平均工资,职工工资的中位数以及标准差。按月工资分组 100-120 120-140 140-160 160-180 180-200工人人数 15 18 30 21 63、某单位统计报表显示,人均月收入为
22、 3030 元,为了验证该统计报表的正确性,作了共 100 人的抽样调查,样本人均月收入为 3060 元,标准差为 80 元,问能否说明该统计报表显示的人均收入的数字有误(取显著性水平005)。4、某地区成人中吸烟者占 75,经过戒烟宣传之后,进行了抽样调查,发现了 100 名被调查的成人中,有 63 人是吸烟者,问戒烟宣传是否收到了成效?(0.05)5、从某校随机地抽取 81 名女学生,测得平均身高为 163 厘米,标准差为 60 厘米,试求该校女生平均身高95的置信区间。 6、对某市市民按老中青进行喜欢民族音乐情况的调查,样本容量为 200 人,调查结果示于下表,试把该频数列联表:转化为相
23、对频数的联合分布列联表转化为相对频数的条件分布列联表;指出对于民族音乐的态度与被调查者的年岁有无关系,并说明理由。 年岁(X)对于民族音乐的态度(Y) 老 中 青 喜 欢不喜欢38 38 3015 33 467、以下是婚姻美满与文化程度的抽样调查的结果,请计算婚姻美满与文化程度之 Gamma 系数。文化程度婚姻美满 大学 中学 小学美 满 9 16 5一 般 8 30 18不美满 3 4 78、两变量 X、Y 之间的关系如下表,X 2 4 6 8 10 12Y 14 10 9 7 5 4(1)求回归方程; (2)求相关系数。 【Y=-0.957X+14.867】 【r=0.98】9、试就下表所
24、示资料,计算关于身高和体重的皮尔逊相关系数。N0 身高(厘米) 体重(千克)123456789101601611651651671701721741761805156596663706973806510、某工厂 50 名职工每天工资数分配情况如下表,试求 :(1)众数所在的组;(2)中位数;(3)平均数。工资数(元) 人数7079 38089 99099 20100109 14110119 4合计 5011、下表是对 40 位员工工作满意度和企业归属感的调查数据,请求出其 Gamma 系数,并解释其意义。工作满意度(X)归属感(Y)低(1) 中(2) 高(3) Fy低(1) 8 4 3 15中
25、(2) 6 5 1 12高(3) 4 4 5 13Fx 18 13 9 4012、在一个正态总体中抽取一个容量为 25 的样本,其均值等于 52,标准差 S=12,求置信水平为 95%的总体均值的置信区间。13、一位研究者试图检验某一社会调查所运用的抽样程序,该项调查是由一些缺乏经验的访问员进行的。研究者怀疑属于干部和知识分子的家庭抽得过多。过去的统计资料表明,该街区的家庭收入是 7500 元,标准差是 1500元;此次调查共抽取 100 个家庭,样本平均收入是 7900 元。问:该研究人员是否有理由怀疑该样本有偏估?(选用 =0.05)14、设 x 为一般正态分布的变量,请计算:(1) ,如
26、果 =5,S=2; ()rp 7.1x(2) ,如果 =500,S=300;860(3) ,如果 =10,S=0.2;9.rZ .2(4) ,如果 =10.73,S=0.25。() 15、为了研究受教育年限和职业声望之间的关系,设以下是 8 名抽样调查的结果,试求职业声望与受教育年限的回归方程。调查对象 X(受教育年限) Y(职业声望) XY X21 12 702 16 803 9 504 19 865 21 906 10 657 5 448 12 75总数()16、为了验证统计报表的正确性,作了共 50 人的抽样调查,人均收入结果有:X=871 元,S=21 元,问能否证明统计报表中人均收入 =880 元是正确的(显著性水平 =0.05)。17、已知初婚年龄服从正态分布,根据 9 个人的抽样调查有:x=23.5(岁),s=3(岁) 问:是否可以认为该地区平均初婚年龄已超过 20 岁(=0.05)。