1、1,统计学第一至第五章综合练习题,答案,知识点的回顾,相关知识点的回顾,2,第一部分 单项选择题,3,某校2004年度抽查了100份本科生毕业论文进行质量评估,评估结果按“优秀、良好、中等、合格、不合格”五级分别记载。就统计测量尺度而言,这种记分方式属于( )A.定类测量 B.定序测量 C.定距测量 D.定比测量,答案:B,4,变量,数值型变量,定比变量,定序变量,品质型变量,定距变量,定类变量,按变量的测量尺度分类,按变量取值的表述方式,5,依据第1题介绍的抽查结果,唯一可以计算的指标是( )A.均值 B.方差 C.全距 D.比率(成数),答案:D,6,集中趋势,离散趋势,众数,定类变量,异
2、众比,中位数,异众比,定序变量,均值,标准差,定距变量,均值,标准差,定比变量,7,是非标志总体的指标,具有某种标志表现的 单位数所占的成数,不具有某种标志表现 的单位数所占的成数,8,3.大学生个体的下列特征中,属于品质变量的是( )A.民族 B.身高 C.年龄 D.体重,答案:A,9,变量,变量值,10,4.从总体中抽取一个元素后不再放回总体然后再从所剩下的元素中抽取第二个元素,直至抽取n个元素为止,这样的抽样方法称为( )A.重复抽样 B.不重复抽样 C.分层抽样 D.整群抽样,答案:B,11,抽样,随机抽样,非随机抽样,简单抽样,复杂抽样,重复抽样 不重复抽样,分层抽样 整群抽样 系统
3、抽样,12,重复抽样,又被称作重置抽样、有放回抽样,抽出 个体,登记 特征,放回 总体,继续 抽取,不重复抽样,又被称作不重置抽样、不放回抽样,抽出 个体,登记 特征,继续 抽取,13,5.根据组距数列各组的组中值计算的平均数是一个( )A.精确值 B.近似值 C.预测值 D.虚拟值,答案:B,14,开口式组距数列组中值的计算:,首组假定下限首组上限相邻组组距末组假定上限末组下限相邻组组距,15,6.设变量值为x,频数为f,则加权算术平均数的计算公式为( )A.f/xf B.x/f C.x(f/f) D.xx(f/f),答案:C,16,均值的计算,简单算数平均数,加权算数平均数,适用于总体资料
4、未经分组整理、尚为原始资料的情况,适用于总体资料经过分组整理形成变量数列的情况,17,18,分析:,起到权衡轻重的作用,决定平均数的变动范围,19,7.算术平均数x/n的重要数学性质之一,是( )A.x-(x/n)=0 B.(x/n)-x2=0 C.x-(x/n)2=0 D.x2-(x/n)2=0,答案:A,20,变量值与其算术平均数的离差之和恒等于零,即:变量值与其算术平均数的离差平方和为最小,即:,算术平均数的主要数学性质,21,8.下列关于众数的叙述,不正确的是( )A.一组数据可能存在多个众数 B.众数主要适用于分类数据 C.一组数据的众数是唯一的 D.众数不受极端数值的影响,答案:C
5、,22,适合使用众数:当数据分布存在明显的集中趋势,且有显著的极端值时不适合使用众数:当数据分布的集中趋势不明显或存在两个以上分布中心时,23,9.非众数组的频数占总频数的比例称为( )A.异众比率 B.平均差 C.标准差 D.离散系数,答案:A,24,异众比率用于衡量众数对一组数据的代表程度。异众比率越大,非众数组的频数占总频数的比重越大,表明众数的代表性越差;异众比率越小,表明众数的代表性越好。,25,10.下列总体参数中,反映离散趋势的是( )A.均值 B.中位数 C.全距 D.众数,答案:C,26,优点:计算方法简单、易懂; 缺点:易受极端数值的影响,不能全面反映所有变量值差异大小及分
6、布状况,准确程度差,全距的特点,27,变量的描述,集中趋势,离中趋势,均值,中位数,众数,极差、四分位差、平均差,方差、标准差,离散系数,标志变异指标,平均指标,数值平均数,位置平均数,28,全体观测值都参与了均值的运算,因此一般情况下要比中位数和众数具有更好的综合性。然而当数据中存在偏大或偏小的极端值时,均值的结果极易受其影响,代表程度降低。中位数和众数都是由位置确定的,因此不受极端值的影响。数据中存在极端值时,中位数和众数比较实用。,均值、中位数、众数的比较,29,均值、中位数和众数的比较,均值是全体观测值的重心,众数是全体观测值的重点,中位数是全体观测值的中心,30,11.比较一群人身高
7、离散程度与体重离散程度哪一个更大时,应当使用( )A.极差 B.标准差系数 C.标准差 D.中位数,答案:B,31,标准差系数: (离散系数),32,12.某次考试,男生的平均分为75分,标准差为18分;女生的平均分为82分,标准差为18分。则我们可以判断说( )A.女生的分数分布更集中 B.男生的分数分布更集中C.男、女生的分数分布集中程度相同 D.无法比较男、女生分数分布集中程度,答案:A,33,13.关于四分位数差描述错误的是( )A 它给出了全体观测值中处于中间位置的50%观测值的变动范围B 它能反映数据的离散程度的大小C 四分位差在一定程度上能说明中位数代表性的强弱D 它和极差一样,
8、比较容易受极端值的影响,答案:D,34,四分位差,指上四分位数与下四分位数之差,也称为内距或四分间距。记为 。,四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数值越集中;数值越大,说明中间的数据越分散。四分位差不受极端数值的影响,在一定程度上也可以说明中位数对一组数据的代表程度。,下四分位数位置的公式,上四分位数位置的公式,35,盒形图(Boxplot),异常值,上四分位数,中位数,下四分位数,方盒的宽窄代表着四分位差的大小。,36,14.经验法则表明,当一组数据近似正态分布时,在平均数加减1个标准差的范围内大约有( )A.68%的数据 B.95%的数据 C.99%的数据 D.
9、100%的数据,答案:A,37,与标准差有关的一个经验法则,38,15.对某个高速路段驶过的120辆汽车的车速进行测量后发现,平均车速是85公里/小时,标准差是4公里/小时,下列哪个车速可以看作异常值( )A.78公里/小时 B.82公里/小时 C.91公里/小时 D.98公里/小时,答案:D,39,16.进行抽样推断时所说的大样本指样本容量( )A.100 B.30 C.20 D.16,答案:B,40,n30,为大样本;n 30,为小样本,41,17.设n为样本容量,则均值的抽样平均误差等于总体标准差的( )A.1/n B.(1/n)1/2 C.(1/n-1)1/2 D.(n-1/n)1/2
10、,答案:B,42,样本均值的抽样平均误差,当N500时,有,重复抽样时:,不重复抽样时:,43,18. 已知总体的均值为50,标准差为8,从该总体中随机抽取容量为64的样本,则样本均值的期望值与抽样分布的标准误差分别为( )。A 50, 8 B 50, 1 C 50, 4 D 8, 8,答案:B,44,平均数的抽样分布,全部可能样本平均数的均值等于总体均值, 从非正态总体中抽取的样本平均数当n足够大时其分布接近正态分布。 从正态总体中抽取的样本平均数不论容量大小其分布均为正态分布。 样本均值的标准差为总体标准差,45,19.是非标志总体比率(成数)抽样平均误差的计算公式是( )A.p(1-p)
11、/n B.p(1-p)1/2/nC.p(1-p)/n1/2 D.p(1-p)/n1/2,46,样本成数的抽样平均误差,重复抽样时:,答案:C,47,20.抽样平均误差与样本容量有关,若我们想将抽样平均误差减少到原来的一半,则样本容量要相应地增加( )A.1倍 B.2倍 C.3倍 D.4倍,答案:C,48,21.某校由100个学生构成的样本显示,月生活费支出均值为500元,标准差为100元。若以95.45%的可靠程度估计(Z2),则该校学生总体月生活费支出水平约为( )A.300700元 B.450550元 C.480520元 D.478522元,答案:C,49, 计算样本平均数 ;, 搜集总体
12、方差的经验数据 ;或计算样本方差 ,即,总体平均数的区间估计,50, 计算抽样平均误差:,重复抽样时,不重复抽样时:,51, 计算抽样极限误差:, 确定总体平均数的置信区间:,52,22.当置信度一定时,置信区间的宽度( )A. 随着样本量的增大而减小 B. 随着样本量的增大而增大C. 与样本量的大小无关 D. 与样本量的平方根成正比,答案:A,53,23. 一个估计量的有效性是指( )。 A. 该估计量的数学期望等于被估计的总体参数 B. 该估计量的一个具体数值等于被估计的总体参数 C. 该估计量的方差比其他估计量大 D. 该估计量的方差比其他估计量小,答案:D,54,抽样估计量的优良标准,
13、设 为待估计的总体参数, 为样本统计量,则 的优良标准为:,若 ,则称 为 的无偏估计量,55,若 ,则称 为比 更有效的估计量,若 越大 越小,则称 为 的一致估计量,56,24. 当正态总体的方差未知时,在小样本下,估计总体均值使用的分布是( )A正态分布 Bt 分布 CF 分布 D. 卡方分布,答案:B,57, 值是否已知, 值是否已知,总体是否正态分布,用样本标准差S 估计,选用,选用,n 是否为大样本,58,第二部分 多项选择题,59,下列标志中属于数量变量的是( )( )( )( )( )A.年龄 B.性别 C.民族 D.月收入额 E.政治倾向,答案:A、D,60,变量,变量值,6
14、1,2描述品质型变量,可以用以下哪些统计图形( )( )( )( )( )A.直方图 B饼图 C散点图 D条形图 E茎叶图,答案:B、D,62,定类变量,定序变量,品质变量,条形图,饼图,63,定距变量,定比变量,茎叶图,直方图,频数表,条形图,饼图,64,直方图,条形图,宽窄表示各组的组距,宽窄没有含义,65,3.关于盒形图,下列说法正确的是( ) ( ) ( ) ( ) A.方盒的宽窄代表四分位差的大小 B.方盒内的竖线代表数据的均值 C.方盒延伸出来的线段的两端是指观测数据集的最大值和最小值 D.方盒中包括了数据中50%的处于中间位置的观测值,答案:A、D,66,4.反映数据分布集中趋势
15、的指标包括( )( )( )( )( )A.平均数 B.中位数 C.众数 D.方差 E.全距,答案:A、B、C,67,变量的描述,集中趋势,离中趋势,均值,中位数,众数,极差、四分位差、平均差,方差、标准差,离散系数,标志变异指标,平均指标,68,5.下列属于描述分布形态的统计量的是( )( )( )( )( )A.峰度 B.偏度 C.平均差 D.方差 E.众位数,答案:A、B,69,计算公式,偏度,SK0,表明频数的形态是对称的; SK0,则表明左偏; SK 0,则表明右偏。,偏度是衡量频数分布形态对称性的统计量,记作SK。,定义,70,定义,峰度,计算公式,峰度是衡量频数分布形态尖削或陡峭
16、程度的统计量,记作KU。,结论,KU=0,称作正态峰;KU0,称作尖顶峰,表明频数分布趋于集中的速度变化较快,分布形态比较尖削或陡峭 。,71,6.估计值的优良标准包括( )( )( )( )( )A.准确性 B.客观性 C.一致性 D.无偏性 E.有效性,答案:C、D、E,72,7.下列结论正确的是( )( )( )( ) A.如果原假设是真的,却被拒绝了,我们就犯了第一类错误,即拒真错误,犯拒真错误的概率是 B.如果原假设是假的,但却未拒绝,我们就犯了第二类错误,即采伪错误,犯采伪错误的概率是 C.在样本容量一定时,可以同时减小和 D.尽量加大样本量,可以同时减小和 E.其他条件不变时,减
17、少会使增加,答案:A、B、D、E,73,两类错误,第一类错误,指拒绝了一个本来是真实的原假设,又称为“弃真”错误或“拒真”错误,犯第一类错误的概率为假设检验的显著性 水平 ,即,74,第二类错误,指接受了一个本来是不真实的原假设,又称为“采伪”错误或“取伪”错误,记犯第二类错误的概率为 ,即,两类错误,75,两类错误总结,结论正确,第二类错误(概率为 ),H1 为真,第一类错误(概率为 ),拒绝 H0,结论正确,接受 H0,H0 为真,总体实际情况,结论,76,8.下列指标属于时期总量指标的有( )( )( )( )( )A.学生人数 B.商品销售额 C.商品库存额 D.工业总产值E.资产负债
18、总额,答案:BCD,77,第三部分 填空题,78,1.通常将调查误差分为 误差、 误差和 误差,答案:随机误差、系统误差、登记性误差,79,调查误差的种类,80,2.对于组距数列,用组中值作为一组数据的代表性数值具有假定性,即假定各组内部变量值分布是 的,因此,依据组中值计算的平均数是 值。,答案:均匀,近似值,81,组距数列(频数表),82,3.累计频率有两种方式,其中,由变量值低的组向变量值高的组累计频率,称为 累计,如果以这样的方式累计频率到70%时,对应的变量值为1200,说明在这个数据集中70%的数据 1200。,答案:向上,,83,累计次数(频率),从变量值低的组开始,将各组次数(
19、频率)逐次向变量值高的组累计,说明某一组上限以下各组的累计次数(频率)。,从变量值高的组开始,将各组次数(频率)逐次向变量值低的组累计,说明某一组下限以上各组的累计次数(频率)。,84,85,4.在一个数据集中,发生频数最高的数据值称为 ,最大数据值与最小数据值之差称为 。,答案:众数,全距,86,指总体中出现次数最多的变量值,用 表示,它不受极端数值的影响,用来说明总体中大多数单位所达到的一般水平。,众数,87,5.确定样本容量时,在其他条件不变的情况下,抽样极限误差取得大一些,样本容量就要 一些;要求的置信度高一些,样本容量就要 一些。,答案:小,大,88,样本容量的确定,通常的做法是先确
20、定置信度,然后限定抽样极限误差。,或S通常未知。一般按以下方法确定其估计值过去的经验数据;试验调查样本的S。,计算结果通常向上进位,89,样本容量的影响因素,总体方差的大小; 允许误差范围的大小; 概率保证程度; 抽样方法; 抽样的组织方式。,90,6.一个特定个体的所有变量值合起来,形成一个观测.在一个数据集中,有n个体,就有_个观测.,答案:n,91,7.按调查的组织方式的不同,分为统计报表和专门调查,专门调查又包括普查、_、_和_.,答案:重点调查、 抽样调查、 典型调查,92,第四部分 简答题,93,1.某企业一个由40人构成的随机样本显示了如下工资收入信息:,描述这样一个数据集分布的
21、集中趋势最好使用什么指标?为什么?描述这样一个数据集分布的离散趋势最好不用什么指标?为什么?,答案: 中位数,全距,94,变量的描述,集中趋势,离中趋势,均值,中位数,众数,极差、四分位差、平均差,方差、标准差,离散系数,标志变异指标,平均指标,95,全体观测值都参与了均值的运算,因此一般情况下要比中位数和众数具有更好的综合性。然而当数据中存在偏大或偏小的极端值时,均值的结果极易受其影响,代表程度降低。中位数和众数都是由位置确定的,因此不受极端值的影响。数据中存在极端值时,中位数和众数比较实用。,均值、中位数、众数的比较,96,缺点:其计算过程仅仅是基于数据中的两个特殊观测值,所以易受极端数值
22、的影响,一旦最小观测值过小或最大观测值过大,则会出现夸大离散程度的情况。,全距的缺点,97,2.影响抽样误差的因素是什么?,98,99,影响抽样误差的因素,总体各单位的差异程度(即标准差的大小): 越大,抽样误差越大; 样本单位数的多少: 越大,抽样误差越小; 抽样方法:不重复抽样的抽样误差比重复抽样的抽样误差小; 抽样组织方式:简单随机抽样的误差最大。,100,第五部分 计算题,101,调查大学生月生活费支出时,一个样本的数据如下:300、530、530、550、570、580、700、850、900、1000 试计算这个样本的众数、中位数、算术平均数和极差。,102,答案:众数=530 中
23、位数=(570+580)/2=575 算数平均数=651 极差=700,103,2.一家物业公司需要购买一批灯泡,你接受了采购灯泡的任务。假设市场上有两种比较知名品牌的灯泡,你希望从中选择一种。因此,你从两个供应商处各随机抽取了60个灯泡的随机样本,进行了“破坏性”试验,得到灯泡寿命数据。经分组后如下:,104,试根据上述资料计算: (1)哪个供应商的灯泡具有更长的使用寿命? (2)哪个供应商的灯泡寿命更稳定?,105,(1)答案:, 即甲供应商的灯泡使用寿命更长。,(2)答案:即乙供应商的灯泡使用寿命更稳定。,106,3.某公司打算调查MBA毕业生就业后第一年的平均年薪,随机抽取一个较小的样
24、本预调查,结果显示样本标准差S 为1000元。该公司想构造一个95%的置信区间(Z1.96),并将抽样极限误差控制在200元以内。问:应当抽取多大的样本容量才能满足这一要求?,107,确 定 方 法, 重复抽样条件下:,通常的做法是先确定置信度,然后限定抽样极限误差。,或S通常未知。一般按以下方法确定其估计值过去的经验数据;试验调查样本的S。,计算结果通常向上进位,答案:应抽取样本容量至少为97的样本,108,4.为估计每个网络用户每天上网的平均时间是多少,随机抽取了225个网络用户的简单随机样本,得样本均值为6.5小时,样本标准差为2.5小时。 (1)试以95%的置信水平,建立网络用户每天平
25、均上网时间的区间估计。 (2)在所调查的225个网络用户中,年龄在20岁以下的用户为90个。以95%的置信水平,建立年龄在20岁以下的网络用户比例的置信区间。,109, 计算样本平均数 ;, 搜集总体方差的经验数据 ;或计算样本方差 ,即,总体平均数的区间估计,(1)答案:,110, 计算抽样平均误差:,重复抽样时,不重复抽样时:,111, 计算抽样极限误差:, 确定总体平均数的置信区间:,112, 计算样本成数 ;, 搜集总体方差的经验数据 ;, 计算抽样平均误差:,重复抽样条件下,总体成数(比率)的区间估计,(2)答案:,113, 计算抽样极限误差:, 确定总体成数的置信区间:,114,5
26、.某企业生产的袋装食品采用自动打包机包装,每袋标准重量为100克。现从某天生产的一批产品中按重复抽样随机抽取50包进行检查,测得每包重量如下:,115,假定食品包装重量服从正态分布,要求: (1)确定该种食品平均重量的95%的置信区间。 (2)采用假设检验方法检验该批食品的重量是否符合标准要求( =0.05, 写出假设检验的具体步骤),116, 计算样本平均数 ;, 搜集总体方差的经验数据 ;或计算样本方差 ,即,总体平均数的区间估计,五、,(1)答案:,117, 计算抽样平均误差:,重复抽样时,118, 计算抽样极限误差:, 确定总体平均数的置信区间:,119,假设检验的基本程序, 提出假设 构造检验统计量 确定显著性水平 建立拒绝原假设的规则 计算检验统计量并做出结论,(2)答案:该批食品的重量不符合标准要求,120,提出原假设和备择假设,双侧检验,左侧检验,右侧检验,步骤,121, 值是否已知, 值是否已知,总体是否正态分布,用样本标准差S 估计,选用,选用,选择检验统计量,n 是否为大样本,122, 根据给定的显著性水平,确定临界值,Z检验法,123,双侧检验,Z检验法,