1、第一章 统计,数字化的时代,产品的合格率,农作物的产量,从普查到抽样,产品的销售量,某地的气温,自然资源,就业状况,电视台的收视率,我国是世界上的第13个贫水国,人均淡水占量排世界第109位,我国土地沙漠化非常严重,全国沙漠化土地面积已超过174000平方公里,并以每年3400平方公里的速度扩张.,你知道这些数据是怎么来的吗?,通过调查获得的.,怎么调查?,是对考察对象进行全面调查还是抽样调查?,妈妈:“儿子,帮妈妈买盒火柴去。” 妈妈:“这次注意点,上次你买的火柴好多划不着。” 儿子高兴地跑回来。 孩子:“妈妈,这次的火柴全划得着,我每根都试过了。”,这个调查具有破坏性,不可能每根试过,不能
2、展开全面调查。,要了解全国高中生的视力情况:,(1)对全国所有的高中生进行视力测试;,(2)对某一所著名中学的高中生进行视力测试;,(3)在全国按东、南、西、北、中分片,每个区域各抽所中学,对这15所中学的全部高中生进行视力测试。,你认为哪种调查方式较适合?,人们在研究某个自然现象或社会现象时,会遇到不方便、不可能或不必要对所有对象作调查的情况,往往采用抽样调查的方法。,属于普查,工作量太大,不方便,没有必要,这种方法缺乏普遍性,不合适。,这种调查具有可操作性及代表性。,同学们觉得在什么时候用普查方式较好?什么时候用抽样调查方式较好呢?,(1)当调查的对象个数较少,调查容易进行时,我们一般采用
3、普查的方式进行。 (2)当调查的结果对调查对象具有破坏性时,或者会产生一 定的危害性时,或不大经济可行我们通常采用抽样调查的方式进行调查。 (3)当调查对象的个数较多,调查不易进行时,我们常采用抽样调查的方式进行调查。,例如,为了了解一批计算器的寿命,我们能将它们逐一测试吗?很明显,这既不可能也没必要。实践中,由于所考察的总体中的个体数往往很多,而且许多考察带有破坏性,因此,我们通常只考察总体中的一个样本,通过样本来了解总体的情况。,进一步,从节约费用的角度考虑,在保证样本估计总体达到一定的精度的前提下,样本中包含的个体数越少越好。,于是,如何设计抽样方法,使抽取的样本能够真正代表总体,就成为
4、我们要关注的一个关键问题。否则,如果样本的代表性不好,那么对总体的判断就会出现错误。因此科学合理地采集样本才能作出客观的统计推断。,那么,怎样从总体中抽取样本呢?如何表示样本数据?如何从样本数据中提取基本信息(样本分布、样本数字特征等),来推断总体的情况呢?这些正是本章要解决的问题。,数理统计所要解决的问题是如何根据样本来推断总体。首先必须清楚地知道要收集的数据是什么;其次,我们检验样本的目的是为了了解总体的情况;再次,我们要知道如何才能收集到高质量的样本数据。,在抽样调查中要注意什么问题?,思考:,要了解全国高中生的视力情况,第三种调查方法:在全国按东、西、南、北、中分片,每个区域各抽3所中
5、学,对这15所中学的全部高中生15000人进行视力测试。,考察对象是什么?,在统计中,我们把所要考察的对象的全体叫做总体,全国每位高中学生的视力情况。,把组成总体的每一个考察的对象叫做个体,这15000名学生的视力情况又组成一个集体,从总体中取出的一部分个体的集体叫做这个总体的一个样本。,15000,样本中的个体的数目叫做样本的容量。,、如何刻画一批袋装牛奶的质量是否合格?,以下变量都可以作为衡量产品质量的指标: ()袋装牛奶的细菌含量;()袋装牛奶的重量; ()袋装牛奶的蛋白含量;()袋装牛奶的脂肪含量;()袋装牛奶的钙含量,、怎样检验“一批袋装牛奶的细菌含量是否超标?”是普查还 是抽样调查
6、?各有什么优缺点?应该采用哪种方法?,思考与讨论,普查的优点:在普查的过程中不出错的情况下可以得到这批袋装牛奶的真实细菌含量。,普查的弊病: 、需要打开每一袋牛奶进行检验,结果使得这批牛奶不能出售,失去了调查这批牛奶的质量的意义; 、普查需要大量的人力、物力和财力; 、当普查的过程中出现很多数据测量、录入等错误时,也会产生错误的结论。,抽样调查的优点:容易操作,节省人力、物力和财力。,抽样调查的缺点:估计结果有误差。,为什么说一个好的抽样调查胜过一次蹩脚的普查?,品尝一勺汤,就可以知道一锅汤的味道,你知道其中蕴涵的道理吗?,生活中的“数学”,高质量的样本数据来自“搅拌均匀”的总体。如果我们能够
7、设法将总体“搅拌均匀”,那么从中任意抽取一部分个体的样本,它们含有与总体基本相同的信息。,范例 在1936年美国总统选举前,一份颇有名气的杂志的工作人员做了一次民意测验,调查Alf Landon 和Franklin Delano Roosevelt中谁将当选下一届总统。为了了解公众意向,调查者通过电话簿和车辆登记簿上的名单给一大批人发了调查表(注意在1936年电话和汽车只有少数富人拥有),通过分析收回的调查表,显示Alf Landon非常受欢迎。于是此杂志预测Alf Landon将在选举中获胜。 实际选举结果正好相反,最后Franklin Delano Roosevelt在选举中获胜。其数据如
8、下:,你认为预期结果出错的原因是什么?,原因是:用于统计推断的样本来自少数富人,只能代表富人的观点,不能代表全体选民的观点(样本不具有代表性)。,像本例中这样容易得到的样本称为方便样本。如果使用“方便样本”,那么得出与事实不符的结论的可能性就会大大增加。,结论:在抽样时不能只图方便。如果只从一些容易得到的个体中抽取样本,那么所得到的样本只是一个“方便样本”,“方便样本”的代表性差,基本这种方便样本得出的结论就会与事实相左。,议一议,中央电视台需要在我市调查“春节联欢晚会”的收视率。 (1)每个看电视的人都要被问到吗? (2)对我校学生的调查结果能否作为该节目的收视率? (3)你认为对不同社区、
9、年龄层次、文化背景的人所做调查的结 果会一样吗?,答(1)中央电视台在调查时不可能问到每一个看电视的人。,(2)对一所中学学生的调查结果不能作为该节目的收视率,因为只有中学生,缺乏代表性。,(3)不同社区、年龄层次、文化背景的人所做调查的结果 不一样,因为他们的兴趣、爱好等方面情况相距甚远。,为了了解学生对学校伙食的满意程度,小红访问了名女生;小聪访问了名男生;小明访问了名男生和名女生,其中高一、高二和高三的男生和女生各8名。你认为小红、小聪、小明三人的不同抽样方法那一种最好?为什么?,学习致用,答:小明的方法最好。小明抽得样本既有男生,又有女生,而均匀分布在各年级,这样的抽样较具有代表性,反
10、映的情况具有普遍意义。,1.我们常常根据样本得到结果来推测总体的结果。不同的抽样可能得到不同的结果。,2.为了使结果更具准确性,抽样时,样本的容量要合理,样本的个体要有代表性。,抽样才具有普遍意义,温馨提醒,练习1.下列调查工作适合采用普查方式的是( )A.环保部门对淮河水域的水 污染调查B.电视台对正在播出的某电视节目收视率的调查C.检查一批电视机的使用寿命D.学校给全校学生订做校服前,进行尺寸大小的调查,2.为了解全校4500名学生的课外阅读时间情况,从中抽取200名学生进行调查,下列说法正确的( ),A.总体是4500名学生; B.个体是每个学生 C.样本是200名学生; D. 样本容量
11、是200.,每个个体在整个抽样过程中被抽取的概率是否相等?,思考,分析:,应用举例,例1 填空:,1 、统计的基本思想方法是_。抽样调查常用的方法有_。样本容量是指_., 、简单随机抽样适用的范围是_.系统抽样适用的范围是_.分层抽样适用的范围是_.,三种抽样方法的应用,用样本估计总体,简单随机抽样,系统抽样,分层抽样,样本中包含的个体的个数,总体中的个体数较少,总体中的个体数较多,总体由差异明显的几部分组成,应用举例,3、为了了解某地区参加数学竞赛的1005名学生的数学成绩,打算从中抽取一个容量为50的样本,现用系统抽样的方法,需要从总体中剔除5个个体,在整个过程中,每个个体被剔除的概率和每
12、个个体被抽取的概率分别为_.,三种抽样方法的应用,A,例2:下列抽取样本的方式是属于哪种抽样方法?,(1)某市为了了解职工的家庭生产状况,先将职工所在的国民经济行业分成13类,然后每个行业抽1/100的职工家庭进行调查,这种抽样方法是_.,分层抽样,(2)某学校高二年级有15名男篮运动员,要从中选出3人调查学习负担情况,这种抽样方法是_.,简单随机抽样,(3)某工厂生产的产品,用传送带将产品送入包装车间,质检员每隔5分钟从传送带某一位置取一产品进行检测,则这种抽样方法是 _.,系统抽样,例2:下列抽取样本的方式是属于哪种抽样方法?,(4)学校会议厅有32排座位,每排有40个座位(座位号为140
13、),一次报告会坐满了听众.会后为听取意见,留下了座位号为18的所有的32名听众进行座谈,则这种抽样方法是_.,系统抽样,(5)在某一地区搞一市场调查,规定在商场门口随机地对一个人进行询问调查,直到调查到事先规定的调查人数为止,则这种抽样方法是_.,偶遇抽样,说明:这样的调查与所学的三种抽样方法的区别在于:事先不知总体且不能保证每个个体按事先规定的概率入样.,例3:填空题:,(1)一个总体的个数为n,用简单随机抽样的方法,抽取一个容量为2的样本,个体a第一次未被抽到的概率为_;个体a第一次未被抽到但第二次被抽到的概率为_;整个抽样过程中个体a被抽到的概率为_.,(n-1)/n,1/n,2/n,注
14、:简单随机抽样中每一个个体的入样概率为M/n.,例3:填空题:,(2)一个总体的80个个体编号为0,1,2,79,并依次将其分成8个小组,组号为0, 1,2,7,要用(错位)系统抽样方法抽取一个容量为8的样本,即规定先在第0组随机抽取一个号码,记为m,依次错位地得到后面各组的号码,即第k组中抽取的号码的个位数为m+k或m+k-10(若m+k10).则在m=6时,所抽到的 8个号码是_.,6,17,28,39,40,51,62,73.,例3:填空题:,(3)某县三个镇共有高中生2000名,且这三个镇的高中生人数之比为2:3:5,若学生甲被抽到的概率为1/10,则这三个镇被抽到的高中生人数分别是_
15、.,40,60,100.,例4:某公司下属四个公司,且各分公司有员工180人,150人,150人, 120人,由于各分公司地域的差异而影响经营效益与员工的消费水平,现要从各分公司抽取60名员工调查消费情况,用什么方法抽样较好,各分公司分别抽多少人?,解:用分层抽样的方法较好.,设各分公司分别抽取 (人),抽取总数n=60人,各公司员工总数为N=180+150+150+120=600人.,例5:从2004名同学中抽取一个容量为20的样本,试叙述系统抽样的步骤.,解:(1)采用随机的方式给个体编号:1,2,2004.,(2)剔除4个个体.,(3)分段:由于20:2000=1:100,故将总体分为2
16、0个部分,其中每一部分100个个体.,(4)在第一部分随机抽取一个号码,比如66号;,(5)起始号加上各段中所含的个体数,如166,266,.,注:从N个编号中抽取n个号码入样,考虑用系统抽样的方式抽样,则抽样的间隔为N/n.,练习1:从50名学生中抽取10名学生对他们的身高进行检测,应采用哪种方法抽样?写出抽样过程.,解:用简单随机抽样较好.,将50名学生的学号写在形状、大小相同的号签上,然后将这些号签放在同一盒子中进行均匀搅拌,抽签时,每次抽出一个号签,连续抽取10次,则所抽得的10个号签上的学生学号所对应着选出的10个学生.,练习2:某高校有一万名大学生,从中抽取100名学生进行健康检查
17、,采用哪种方法抽样较好?写出抽样过程.,解:由于总体个数为10000,数量较大,因而采用系统抽样法.,具体过程如下:,(1)采用随机的方式将总体中的个体编号1,2,3,10000.,(2)把整个总体分成10000/100=100组;,(3)在第一组中用简单随机抽样确定一个起始个体编号m;,(4)将m+100,m+200,m+9900分别到第2,3,100个编号从而获得整个样本.,练习3:一个地区有5个乡镇,人口3万,其人口比例为3:2:5:2:3,要从3万人中抽取300人进行某种疾病的发病分析.已知这种疾病与不同的地理位置及水土有关,问应采用哪种抽样方法?并写出具体过程.,解:因为疾病与不同的
18、地理位置及水土有关,因而不同乡镇的发病情况差异明显,因而采用分层抽样方法.,具体过程如下:,(1)将3万人分成5层,每个乡镇一层;,(2)按照样本容量与总体容量的比例及各乡镇的人口比例随机 抽取各乡镇应抽取的样本,通过计算,易知各乡镇应抽取的样本数分别为60,40,100,40,60个.,(3)将300个人组成一起,即得到一组样本.,练习4:光明中学有高一学生400人,高二学生320人,高三学生400人,以每人被抽取的概率为0.2,向该中学抽取一个容量为n的样本,则n=_.,224,2)我们所学的三种抽样方法都是事先规定每个个体的入样概率相等(一般的分层抽样可规定不同层有不同的入样概率,我们所学的分层抽样严格地讲,称为按比例分层抽样).这体现了这三种抽样方法的客观性和公平性.,3)简单随机抽样是系统抽样与分层抽样的基础;系统抽样与分层抽样是简单随机抽样的发展.,例5:某中学有学生2000名,为了了解学生的学习情况,抽5%的学生进行调查,你将如何设计抽样方法?,解:根据不同的要求可有不同的抽样方法.,现在抽5%的学生,一般来说,一个班级的人数在5060,用系统抽样方法每个班可抽到23人,可以采用系统抽样.,若抽样比例少于2%,而学校有文、理分班或快、慢分班等学生学习程度不一致的情形,应采用分层抽样.,