1、统计学第一章1. 什么是统计学?怎样理解统计学与统计数据的关系?答:统计学是一门收集、整理、显示和分析统计数据的科学。统计学与统计数据存在密切关系,统计学阐述的统计方法来源于对统计数据的研究,目的也在于对统计数据的研究,离开了统计数据,统计方法以致于统计学就失去了其存在意义。2简要说明统计数据的来源答:统计数据来源于两个方面:直接的数据:源于直接组织的调查、观察和科学实验,在社会经济管理领域,主要通过统计调查方式来获得,如普查和抽样调查。间接的数据:从报纸、图书杂志、统计年鉴、网络等渠道获得。3.简要说明抽样误差和非抽样误差答:统计调查误差可分为非抽样误差和抽样误差。非抽样误差是由于调查过程中
2、各环节工作失误造成的,从理论上看,这类误差是可以避免的。抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的。4.答:(1)有两个总体:A 品牌所有产品、B 品牌所有产品(2)变量:口味(如可用 10 分制表示)(3)匹配样本:从两品牌产品中各抽取 1000 瓶,由 1000 名消费者分别打分,形成匹配样本。(4)从匹配样本的观察值中推断两品牌口味的相对好坏。第二章、统计数据的描述思考题1 描述次数分配表的编制过程答:分二个步骤:(1) 按照统计研究的目的,将数据按分组标志进行分组。按品质标志进行分组时,可将其每个具体的表现作为一个组,或者几个表现合并成一个组,这取决于分组的
3、粗细。按数量标志进行分组,可分为单项式分组与组距式分组单项式分组将每个变量值作为一个组;组距式分组将变量的取值范围(区间)作为一个组。统计分组应遵循“不重不漏”原则(2) 将数据分配到各个组,统计各组的次数,编制次数分配表。2解释洛伦兹曲线及其用途答:洛伦兹曲线是 20 世纪初美国经济学家、统计学家洛伦兹根据意大利经济学家帕累托提出的收入分配公式绘制成的描述收入和财富分配性质的曲线。洛伦兹曲线可以观察、分析国家和地区收入分配的平均程度。3. 一组数据的分布特征可以从哪几个方面进行测度?答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度。常用的指标有均值、中位数、众数、极差、方差
4、、标准差、离散系数、偏态系数和峰度系数。4 怎样理解均值在统计中的地位?答:均值是对所有数据平均后计算的一般水平的代表值,数据信息提取得最充分,具有良好的数学性质,是数据误差相互抵消后的客观事物必然性数量特征的一种反映,在统计推断中显示出优良特性,由此均值在统计中起到非常重要的基础地位。受极端数值的影响是其使用时存在的问题。5 对比率数据的平均,为什么采用几何平均?答:比率数据往往表现出连乘积为总比率的特征,不同于一般数据的和为总量的性质,由此需采用几何平均。6. 简述众数、中位数和均值的特点和应用场合。答:众数、中位数和均值是分布集中趋势的三个主要测度,众数和中位数是从数据分布形状及位置角度
5、来考虑的,而均值是对所有数据计算后得到的。众数容易计算,但不是总是存在,应用场合较少;中位数直观,不受极端数据的影响,但数据信息利用不够充分;均值数据提取的信息最充分,但受极端数据的影响。7 为什么要计算离散系数?答:在比较二组数据的差异程度时,由于方差和标准差受变量值水平和计量单位的影响不能直接比较,由此需计算离散系数作为比较的指标。练习题:1. 频数分布表如下:服务质量等级评价的频数分布服务质量等级 家庭数(频率) 频率%A 14 14B 21 21C 32 32D 18 18E 15 15合计 100 100条形图(略)2 (1)采用等距分组:n=40 全距=152-88=64 取组距为
6、 10组数为 64/10=6.4 取 6 组 频数分布表如下:40 个企业按产品销售收入分组表按销售收入分组 企业数 频率 向上累积 向下累积(万元) (个) (% ) 企业数 频率 企业数 频率100 以下100110110120120130130140140 以上591274312.522.530.017.510.07.55142633374012.535.065.082.592.5100.04035261473100.087.565.035.017.57.5合计 40 100.0 (2) 某管理局下属 40 个企分组表按销售收入分组(万元) 企业数(个) 频率(% )先进企业良好企业一般
7、企业落后企业11119927.527.522.522.5合计 40 100.03 采用等距分组全距=49-25=24n=40 取组距为 5,则组数为 24/5=4.8 取 5 组频数分布表:按销售额分组(万元) 频数(天数)25-3030-3535-4040-4545-50461596合计 40461596051015Frequency25 30 35 40 45 50sales4. (1)排序略。(2)频数分布表如下:100 只灯泡使用寿命非频数分布按使用寿命分组(小时) 灯泡个数(只) 频率(% )650660 2 2660670 5 5670680 6 6680690 14 146907
8、00 26 26700710 18 18710720 13 13720730 10 10730740 3 3740750 3 3合计 100 100直方图(略)。 (3)茎叶图如下:65186614 5 6 86713 4 6 7 96811 2 3 3 3 4 5 5 5 8 8 9 96900 1 1 1 1 2 2 2 3 3 4 4 5 5 6 6 6 7 7 8 8 8 8 9 97000 1 1 2 2 3 4 5 6 6 6 7 7 8 8 8 97100 2 2 3 3 5 6 7 7 8 8 97201 2 2 5 6 7 8 9 97335 67414 75 等距分组n=6
9、5 全距 =9-(-25)=34 取组距为 5,组数=34/5=6.8, 取 7 组频数分布表:按气温分组 天数-25 - -20-20 - -15-15 - -10-10 - -5-5 - 00 - 55 - 108810141447合计 658 81014 1447051015Frequency-30 -20 -10 0 10tempture7 (1)茎叶图如下:A 班 B 班数据个数 树 叶 树茎 树叶 数据个数0 3 59 21 4 4 0448 42 97 5 122456677789 1211 97665332110 6 011234688 923 9887776655555444
10、3332100 7 00113449 87 6655200 8 123345 66 632220 9 011456 60 10 000 3(3) A 班考试成绩的分布比较集中,且平均分数较高;B 班考试成绩的分布比 A 班分散,且平均成绩较 A 班低8. 箱线图如下:(特征请读者自己分析) Min-ax25%7ed vlu354675899 (1) x=274.1(万元);Me =272.5 ;Q L=260.25; QU =291.25。(2) 17.s(万元)。10甲企业平均成本 19.41(元),3111iiiimx乙企业平均成本 18.29(元);32212iiiix原因:尽管两个企业
11、的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。11 x= 426.67(万元);1kiif116.48(万元)21kiiiixfs13(1)离散系数,因为它消除了不同组数据水平高低的影响。(2)成年组身高的离散系数: 024.17.sv;幼儿组身高的离散系数: 3.s;由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。14 表给出了一些主要描述统计量方法 A 方法 B 方法 C平均 165.6 平均 128.73 平均 125.53中位数 165 中位数 129 中位数 126众数 164 众数 128 众数 126标
12、准偏差 2.13 标准偏差 1.75 标准偏差 2.77极差 8 极差 7 极差 12最小值 162 最小值 125 最小值 116最大值 170 最大值 132 最大值 128先考虑平均指标,在平均指标相近时考虑离散程度指标。应选择方法 A,其均值远高于其他两种方法,同时离散程度与其他两组相近。15(1)风险的度量是一个不断发展的问题,在古典金融理论中,主要采用标准差这个统计测度来反映,现代金融中,采用在险值(value at risk) 。(2)无论采用何种风险度量,商业类股票较小(3)个人对股票的选择,与其风险偏好等因素有关。第四章1.总体分布指某个变量在总体中各个个体上的取值所形成的分
13、布,它是未知的,是统计推断的对象。从总体中随机抽取容量为 n 的样本 ,它的分12,nx布称为样本分布。由样本的某个函数所形成的统计量 ,它的分布f称为抽样分布(如样本均值、样本方差的分布)2.重复抽样和不重复抽样下,样本均值的标准差分别为:22, 1Nnn因此不重复抽样下的标准差小于重复抽样下的标准差,两者相差一个调整系数3.解释中心极限定理的含义答:在抽样推断中,中心极限定理指出,不论总体服从何种分布,只要其数学期望和方差存在,对总体进行重复抽样时,当样本容量充分大,样本均值趋近于正态分布。中心极限定理为均值的抽样推断奠定了理论基础。第四章、参数估计1简述评价估计量好坏的标准答:评价估计量
14、好坏的标准主要有:无偏性、有效性和相合性。设总体参数的估计量有 和 ,如果 ,称 是无偏估计量;如果 和 是无偏121E112估计量,且 小于 ,则 比 更有效;如果当样本容量 ,D22 n,则 是相合估计量。112.说明区间估计的基本原理答:总体参数的区间估计是在一定的置信水平下,根据样本统计量的抽样分布计算出用样本统计量加减抽样误差表示的估计区间,使该区间包含总体参数的概率为置信水平。置信水平反映估计的可信度,而区间的长度反映估计的精确度。3解释置信水平为 95的置信区间的含义答:总体参数是固定的,未知的,置信区间是一个随机区间。置信水平为 95的置信区间的含义是指,在相同条件下多次抽样下
15、,在所有构造的置信区间里大约有 95包含总体参数的真值。4简述样本容量与置信水平、总体方差、允许误差的关系答:以估计总体均值时样本容量的确定公式为例: 2/znE样本容量与置信水平成正比、与总体方差成正比、与允许误差成反比。练习题:2. 解:由题意:样本容量为 49n(1) 若 1515,2.3x(2) /20.,.96*4.028Ezn(3) 若 /2/21,14.,104.285.794.08xxzn3.解:由题可得: 36,.1,.69nxs尽管采用不重复抽样,但因为样本比例很小(不到 0.5%) ,其抽样误差与重复抽样下近似相同,采用重复抽样的抽样误差公式来计算。为大样本,则在 的显著
16、性水平下的置信区间为:36n/2/2,ssxzxzn当 ,置信区间为(2.88,3.76)/20.1,.64当 ,置信区间为(2.80,3.84)/59z当 ,置信区间为(2.63,4.01)/2.,.5 解:假设距离服从正态分布, 16,9.375,4.1nxs平均距离的 95的置信区间为(7.18,11.57)0.250.251,ssxtxtn 7 解:由题意: 。3,64%p因为 均超过 5,大样本,1p(1)总体中赞成比率的显著性水平为 的置信区间为/2/21,pzznn 当 时,0.5/264%*3.91.50E置信区间为(50.7%,77.3%)(2)如果要求允许误差不超过 10,
17、置信水平为 95,则应抽取的户数:22/1.96*.86201znE8.此题需先检验两总体的方差是否相等:22011:,:H在 5%的显著性水平下, 2/96.8/10.94Fs,不拒绝原假设0.250.9750.5(3,6),(3,)(,3).28F认为两总体方差是相同的。(1) 2120.5190%,99.8172.4*0219.87*4.54pxts即(1.93,17.669)(2) 2120.51195%,99.8203.4*219.803*4.547pxts即(0.27,19.32)11.大样本的情况 1212/ 1pppzn(1)90%置信度下(3.021%,16.9740%*63
18、0*740%3.6510%6.972259)(2)95%置信度下(1.684%,18.316%)40*630*74031.9108.36252512解:由题可计算: 2221.,.6ss两个总体方差比 在 95的置信区间为:2/2211/ /, 4.06,135, ,ssFnFn 14解:由题意: /20,.96zE则必须抽取的顾客数为: 22/1.*0139n第五章、假设检验思考题11理解原假设与备择假设的含义,并归纳常见的几种建立原假设与备择假设的原则.答:原假设通常是研究者想收集证据予以反对的假设;而备择假设通常是研究者想收集证据予以支持的假设。建立两个假设的原则有:(1)原假设和备择假
19、设是一个完备事件组。 (2)一般先确定备择假设。再确定原假设。 (3)等号“”总是放在原假设上。 (4)假设的确定带有一定的主观色彩。 (5)假设检验的目的主要是收集证据来拒绝原假设。2第一类错误和第二类错误分别是指什么?它们发生的概率大小之间存在怎样的关系?答:第 I 类错误指,当原假设为真时,作出拒绝原假设所犯的错误,其概率为。第 II 类错误指当原假设为假时,作出接受原假设所犯的错误,其概率为 。 在其他条件不变时, 增大, 减小; 增大, 减小。3什么是显著性水平?它对于假设检验决策的意义是什么?答:假设检验中犯第一类错误的概率被称为显著性水平。显著性水平通常是人们事先给出的一个值,用
20、于检验结果的可靠性度量,但确定了显著性水平等于控制了犯第一错误的概率,但犯第二类错误的概率却是不确定的,因此作出“拒绝原假设”的结论,其可靠性是确定的,但作出“不拒绝原假设”的结论,其可靠性是难以控制的。4什么是 p 值?p 值检验和统计量检验有什么不同?答:p 值是当原假设为真时,检验统计量小于或等于根据实际观测样本数据计算得到的检验统计量值的概率。P 值常常作为观察到的数据与原假设不一致程度的度量。统计量检验采用事先确定显著性水平 ,来控制犯第一类错误的上限,p 值可以有效地补充 提供地关于检验可靠性的有限信息。 值检验的优p点在于,它提供了更多的信息,让人们可以选择一定的水平来评估结果是
21、否具有统计上的显著性。5什么是统计上的显著性?答:一项检验在统计上是显著的(拒绝原假设) ,是指这样的(样本)结果不是偶然得到的,或者说,不是靠机遇能够得到的。显著性的意义在于“非偶然的练习题3解(1)第一类错误是,供应商提供的炸土豆片的平均重量不低于 60 克,但店方拒收并投诉。(2)第二类错误是,供应商提供的炸土豆片的平均重量低于 60 克,但店方没有拒收。(3)顾客会认为第二类错误很严重,而供应商会将第一类错误看得较严重。4解:提出假设 02:6,:H已知 1.9,.05n(1) 检验统计量为 60,1axZNn:(2) 拒绝规则是:若 ,拒绝 ;否则,不拒绝z0H0H(3) 由 得:
22、,拒绝 ,认为改进6.35x0.56.352.94161Zz0工艺能提高其平均强度。5 解: 设 为如今每个家庭每天收看电视的平均时间(小时)需检验的假设为: 01:6.7,:6.70H调查的样本为: 2,52nxs大样本下检验统计量为: .5*14.3.2/0zn在 0.01 的显著性水平下,右侧检验的临界值为 .1z因为 ,拒绝 ,可认为如今每个家庭每天收看电视的平均时间增加了2.3z0H6. 解:提出假设 22220 1:0.75,:0.75TVCRTVH已知: 3,ns检验统计量 22 20.5219*1394.70.75VCR拒绝 ,可判定电视使用寿命的方差显著大于 VCR0H7.
23、解:提出假设: 01212:,:H,独立大样本,则检验统计量为:1.2,5n2214.85.480.61xzsn而 2.33 因为 ,拒绝 ,平均装配时间之差不等于 5 分0.1z/2z0H钟8. 解:匹配小样本 提出假设: 01:,:ababH由计算得: ,检验统计量为.625,.380.5dsn,不拒绝 ,不能认为广告提0.50.6251.371.946/8dt tsn0H高了潜在购买力的平均得分。9. 解:提出假设: 01212:,:H已知: 29730180.684,7,.8,0.16npnp大样本,则检验统计量为:12*.37p12120.684.24.0761*3zpn而 ,因为
24、,拒绝 ,可认为信息追求者消极度假的比率显0.19z0.1z0H著小于非信息追求者。10. 解:提出假设: 22011:,:由题计算得: 225.,0.7nsns检验统计量为: ,而221.8.3760F0.254,1.3F,所以拒绝 ,认为两种机器的方差存在显著差异。/212,Fn0H第七章 相关与回归分析思考题1相关分析与回归分析的区别与联系是什么?答:相关与回归分析是研究变量之间不确定性统计关系的重要方法,相关分析主要是判断两个或两个以上变量之间是否存在相关关系,并分析变量间相关关系的形态和程度。回归分析主要是对存在相关关系的现象间数量变化的规律性作出测度。但它们在研究目的和对变量的处理
25、上有明显区别。它们均是统计方法,不能揭示现象之间的本质关系。3.什么是总体回归函数和样本回归函数?它们之间的区别是什么?答:以简单线性回归模型为例,总体回归函数是总体因变量的条件期望表现为自变量的函数: ,或 。总体回归函iiiEYXfXiiYXu数是确定的和未知的,是回归分析所估计的对象。样本回归函数是根据样本数据所估计出的因变量与自变量之间的函数关系: 或 。iiyxiiyxe回归分析的目的是用样本回归函数来估计总体回归函数。它们的区别在于,总体回归函数是未知但是确定的,而样本回归函数是随样本波动而变化;总体回归函数的参数 是确定的,而样本回归函数的系数 是随机变量;总体回,归函数中的误差
26、项 不可观察的,而样本回归函数中的残差项 是可以观察的。iu ie4. 什么是随机误差项和残差?它们之间的区别是什么?答:随机误差项 表示自变量之外其他变量的对因变量产生的影响,是不可观i察的,通常要对其给出一定的假设。残差项 指因变量实际观察值与样本回归ie函数计算的估计值之间的偏差,是可以观测的。它们的区别在于,反映的含义是不同且可观察性也不同,它们的联系可有下式: iiii i ieyxxuxxu5.为什么在对参数进行最小二乘估计时,要对模型提出一些基本的假定?答:最小二乘法只是寻找估计量的一种方法,其寻找到的估计量是否具有良好的性质则依赖模型的一些基本的假定。只有在一系列的经典假定下,
27、最小二乘估计量才是 BLUE。15. 为什么在多元回归中要对可决系数进行修正?答:在样本容量一定下,随着模型中自变量个数的增加,可决系数 会随之增2R加,模型的拟合程度上升,但自由度会损失,从而降低推断的精度,因此需要用自由度来修正可决系数,用修正的可决系数来判断增加自变量的合适性。16在多元线性回归中,对参数作了 t 检验后为什么还要作方差分析和 F 检验?答:t 检验仅是对单个系数的显著性进行检验,由于自变量之间存在着较为复杂的关系,因此有必要对回归系数进行整体检验,方差分析和 F 检验就是对回归方程的整体统计显著性进行的检验方法。练习题1. 解:设简单线性回归方程为: 12yx(1) 采
28、用 OLS 估计:22349.0 .7865iixy11549.8076*y回归系数经济意义:销售收入每增加 1 万元,销售成本会增加 0.786 万元。(2) 可决系数为: 2222349.0.9857*685.iiiixyR回归标准误: 2210.2. 2.91iySEn(3) 检验统计量为: 220.7863.769/425./itSex所以 是显著不为零2(4) 预测: 1240.56.78*069.3ffyx95%的预测区间为: 2 24.1 1.96*69.3.*925037ff ixyn 即( 664.579 ,674.153)2.(1).2.4.6.811.2y65 70 75
29、 80 85x(2)负相关关系(3)_cons 6.017831 1.05226 5.72 0.001 3.529632 8.50603x -.0704144 .0141757 -4.97 0.002 -.1039346 -.0368941y Coef. Std. Err. t P|t| 95% Conf. IntervalTotal .819155592 8 .102394449 Root MSE = .16082Adj R-squared = 0.7474Residual .181036906 7 .025862415 R-squared = 0.7790Model .638118686
30、1 .638118686 Prob F = 0.0016F( 1, 7) = 24.67Source SS df MS Number of obs = 9(4)估计的斜率系数为7.0414,表示航班的正点率每提高 1,百万名乘客的投诉次数会下降:7.0414*0.01=0.070414 次。(5)如果 ,则 次0.8fx6.0178.4*0.8346fy3.Results of multiple regression for ySummary measuresMultiple R 0.9521R-Square 0.9065Adj R-Square 0.8910StErr of Est 3.33
31、13ANOVA TableSource df SS MS F p-valueExplained 3 1937.7485 645.9162 58.2048 0.0000Unexplained 18 199.7515 11.0973Regression coefficientsCoefficient Std Err t-value p-value Lower limit Upper limitConstant 32.9931 3.1386 10.5121 0.0000 26.3991 39.5870x1 0.0716 0.0148 4.8539 0.0001 0.0406 0.1026x2 16.
32、8727 3.9956 4.2228 0.0005 8.4782 25.2671x3 17.9042 4.8869 3.6637 0.0018 7.6372 28.17114._cons 2426.563 809.8789 3.00 0.006 764.829 4088.298gnp .5459054 .0099106 55.08 0.000 .5255705 .5662403 consump Coef. Std. Err. t P|t| 95% Conf. Interval Total 3.0139e+10 28 1.0764e+09 Root MSE = 3137.8 Adj R-squa
33、red = 0.9909Residual 265831846 27 9845623.91 R-squared = 0.9912 Model 2.9873e+10 1 2.9873e+10 Prob F = 0.0000F( 1, 27) = 3034.13 Source SS df MS Number of obs = 29_cons 131260.2 1869.528 70.21 0.000 127424.3 135096.2gnpf .5459054 .0099106 55.08 0.000 .5255705 .5662403consump Coef. Std. Err. t P|t| 9
34、5% Conf. IntervalTotal 3.0139e+10 28 1.0764e+09 Root MSE = 3137.8Adj R-squared = 0.9909Residual 265831769 27 9845621.08 R-squared = 0.9912Model 2.9873e+10 1 2.9873e+10 Prob F = 0.0000F( 1, 27) = 3034.13Source SS df MS Number of obs = 295.consump_lag .8546615 .0781069 10.94 0.000 .6941105 1.015213gnp
35、 .1325853 .0398154 3.33 0.003 .0507435 .2144272 consump Coef. Std. Err. t P|t| 95% Conf. Interval Total 6.2505e+10 28 2.2323e+09 Root MSE = 1559 Adj R-squared = 0.9989Residual 63190678.2 26 2430410.7 R-squared = 0.9990 Model 6.2442e+10 2 3.1221e+10 Prob F = 0.0000F( 2, 26) =12845.95 Source SS df MS
36、Number of obs = 28_cons 1211.364 377.8058 3.21 0.004 433.2588 1989.47consump_lag .7797504 .0710054 10.98 0.000 .633512 .9259889gnp .1603467 .0352595 4.55 0.000 .0877283 .2329651consump Coef. Std. Err. t P|t| 95% Conf. IntervalTotal 2.9132e+10 27 1.0790e+09 Root MSE = 1338.3Adj R-squared = 0.9983Resi
37、dual 44777396.2 25 1791095.85 R-squared = 0.9985Model 2.9088e+10 2 1.4544e+10 Prob F = 0.0000F( 2, 25) = 8120.05Source SS df MS Number of obs = 28_cons .6662515 .0048402 137.65 0.000 .6563202 .6761829gnp -6.59e-07 5.92e-08 -11.13 0.000 -7.81e-07 -5.38e-07 consump_rao Coef. Std. Err. t P|t| 95% Conf.
38、 Interval Total .053090118 28 .001896076 Root MSE = .01875 Adj R-squared = 0.8145Residual .009495109 27 .000351671 R-squared = 0.8212 Model .043595009 1 .043595009 Prob F = 0.0000F( 1, 27) = 123.97 Source SS df MS Number of obs = 297. 解(1)样本容量: 15TSndf(2) 604297RSE(3) 3,12ESdfkfk(4) ,259.8T2211410.98.962nRk(5)用 F 检验: ,/65/07ESR.52,13.89F整体对 有显著影响,但不能确定单个对 y 的贡献。23,xy