收藏 分享(赏)

第四讲抽样调查.ppt

上传人:weiwoduzun 文档编号:4663355 上传时间:2019-01-06 格式:PPT 页数:103 大小:1.27MB
下载 相关 举报
第四讲抽样调查.ppt_第1页
第1页 / 共103页
第四讲抽样调查.ppt_第2页
第2页 / 共103页
第四讲抽样调查.ppt_第3页
第3页 / 共103页
第四讲抽样调查.ppt_第4页
第4页 / 共103页
第四讲抽样调查.ppt_第5页
第5页 / 共103页
点击查看更多>>
资源描述

1、抽样调查,调查方法(资料收集) 研究方案的设计 定性研究 定量研究 研究计划和报告,调查方法(资料收集),一、研究方案的设计 研究的流程 调研方案的类别 调研类型的比较 调研方式设计的比较 定量研究方式和定性研究方式的比较 二、定性研究 定性研究方法的分类 焦点(小组)访谈 深入访谈,三、定量研究 定量调查方法分类及比较 测量与操作化 指标与量表 概念的操作化 问卷设计 抽样 误差来源 四、研究计划和报告 研究计划 研究报告,一、研究方案的设计,假定,研究题目,有关的理论和研究,确定问题和目标,科学假设和模型建构,概念和操作定义,研究设计,理论与实际的贡献,检验假设和修改模型,简化、分析和解释

2、资料,收集资料,建构测量工具,总体和抽样,研究流程的例子,假定:实证主义?人文主义?研究课题: 1、实践要求:青少年偏差行为严重,要解决。 2、验证理论:社会控制、差异交往、标签论 3、修正方法学:自我报告量表是否有效有关理论和研究: 1、方法论:理性非理性 / 集体主义个人主义 2、本领域理论:社会控制、差异交往、标签论 3、本领域前人的具体研究:海西对美国青少年的研究吴梦珍对香港家庭结构与青少年偏差行为的研究,科学假设A 家庭关系(X1) 偏差行为(Y)B 不良交往(X2) 偏差行为(Y)C 标签程度(X3) 偏差行为(Y),+,+,X1,Y,X2,X3,+,+,+,模型:,研究流程的例子

3、(续1),概念: 偏差行为违反道德规范的行为 操作化:偏差行为有没有(多少次)违反学生守则研究设计:1、文献、统计资料分析 2、座谈会 3、问卷调查总体和抽样 总体:广州市高中和初中的全体在读学生 抽样: 访谈有问题、没有问题的学生各20名定性 分组座谈(有问题、没有问题各一组)教师、家长若干名重点/非重点各抽十分之一(隔十抽一)每校各级两个班,定量,建构测量工具 1、列访问提纲,录音设备,座谈室 2、问卷设计,尤其是自我报告量表收集资料 1、文献、统计数据收集 2、深入访谈 3、焦点访谈 4、问卷调查,简化、分析和解释 1、整理文献、录音、录像资料 2、问卷资料输入、清理、统计(频数、百分比

4、、交互分类、 因素分析、路径模型分析) 检验假设和修改模型,X1,-0.2,-0.3,X2,Y,X3,0.5,0.4,0.6,R=0.6 R2=.36,理论、实践贡献理论:什么理论最有解释力Xi变项之间的关系如何方法:自我报告测量表的修改(太敏感的问题不问) 实践贡献:对青少年不要轻易贴标签,如果你去市场买水果,水果摊上有一大堆桔子,摊主告诉你:可以挑,一块一斤;不许挑,七毛一斤。你会如何决择?,请思考,社会,推断统计,中国人口状况? 总量?结构?普查?抽样?,参数估计,抽样,推断,总体,样本,生活在调查中的现代人 调查无所不在抽样调查是应用最广泛的调查方式在国外,抽样调查几乎应用于所有领域

5、在国内,抽样调查应用发展迅速 如人口调查,经济领域调查,社会问题研究,电视收视率调查,各种民意调查,等。,调查能测准吗? 也能,也不能。 这似乎是矛盾的,关键是没有衡量测量准确的标准。 有这样几个案例。,到底多少人赞成取消“黄金周”?,2007年11月9-15日,新华网、人民网、国家发改委网站、新浪、搜狐等网站就“节假日调整方案”联合进行网上调查,约155万人通过网络参与了调查,调查结果是:68%的网民支持将“五一”节调整出的两天和新增加的一天用于增加清明、端午、中秋三个传统节日为国家法定节假日;81%的网民支持保留“十一”和春节两个黄金周,并将春节放假时间提前一天(即春节假从除夕开始);77

6、%的网民支持调整前后周末形成元旦、清明、国际劳动节、端午、中秋五个连续三天的“小长假”;90%网民支持国家全面推行职工带薪休假制度。资料来源:2007年11月16日“北京青年报”,网友质疑: 1.网民调查的比例是否就是全体公民意愿的比例? 2.调查问卷中是否有缺欠?(整个调查问卷以“五一”黄金周取消为前提,例如问卷中“对于保留十一和春节两个黄金周,您的态度是什么”这个问题,回避了五一黄金周存废问题,有偷换概念的嫌疑)该项调查也引起一片质疑。,上述调查结果都是被社会广泛质疑的。从技术层面讲,被质疑的一个重要原因是没有说明样本的产生过程。成功的案例也有,如美国总统竞选的预测。,美国总统竞选预测 民

7、主党候选人 共和党候选人 实际 1968 汉佛莱(50%) 尼克松(50%) 尼(50.3%) 1972 尼克松(62%) 尼(61.8%) 1976 卡特(51%) 卡(51.1%) 1980 里根(52%) 里(55.3%) 1984 里根(59%) 里(59.2%) 1988 布什(56%) 布(53.9%)对人的评价比对物的评价要更困难,一、抽样推断的含义,抽样推断的作用,了解对某些不可能进行全面调查的现象 了解某些不必须或不允许全面调查的现象 需要及时了解情况的现象 对全面调查的资料进行评价和修正 对工业生产过程进行质量控制,特点:非全面调查、随机抽样、抽样估计、抽样误差可以事先计算

8、并控制,根据样本指标推算总体相应数量特征,抽样调查的作用,(一)应用抽样法可对某些不可能或不容易进行全面调查而又要了解其全面情况的社会经济现象进行数量方面的统计分析。 对无限总体不可能进行全面调查。 有些现象总体范围过大,单位分布又过于分散,很难或不必要进行全面调查。 对于产品或商品具有破坏性的质量检验也不能进行全面调查。 对那些资料要求紧迫,需以较短时间,迅速了解总体全面情况时,也可用抽样法。,(二)应用抽样法可对全面调查的结果加以补充或订正 许多社会经济现象虽然可以全面调查,但同时开展抽样调查,把两者结合起来应用也具有重要的意义。 全面调查不论是一次性普查,还是经常性统计报表制度,由于范围

9、广、工作量大,参加人员多,就较多地存在发生登记性和计算性误差的可能。在全面调查后,随即抽取一部分单位重新再调查一次,将这些单位两次调查的资料进行对照、比较,计算其差错比率,并以此为依据对全面调查的资料加以修正,这样就可以进一步提高全面调查资料的准确性。 另外,由于抽样调查范围小,可以根据需要增加一些调查项目,以便进行某项更深入的研究,以补充全面调查的不足.,(三)应用抽样法可对生产过程中产品质量进行检查和控制 抽样调查不但广泛用于生产结果的核算和估计,而且也有效地应用于对成批或大量连续生产的工业产品在生产过程中进行质量控制,观察生产工艺过程是否正常,是否存在某些系统性的偏误,及时提供有关信息,

10、分析可能的原因,便于采取措施,防止损失。 (四)应用抽样法可对总体的某种假设进行检验,来判断这种假设的真伪,决定行动的取舍。,二、抽样的基本概念,1、总体和样本 总体定义:总体也称为全及总体,指所要认识的研究对象全体。它是由所研究范围内具有某种共同性质的全体单位所组成的集合体。 样本又称子样,它是从全及总体中随机抽取出来,作为代表这一总体的那部分单位组成的集合体。 样本的单位数是有限的,数目较小,用n表示。 作为推断对象的总体是确定的,而且是唯一的。,2.全及总体和样本总体 全及总体:研究对象的全体(N) 样本总体:随机抽取的部分单位(n) 总体是确定唯一的,样本是随机可变的。,3.参数和统计

11、量,全及指标:根据总体各单位的标志值或标志属性计算的,反映总体数量特征的综合指标。 全及指标是总体变量的函数,其数值是由总体各单位的标志值或标志属性决定的,一个全及指标的指标值是确定的、唯一的,称为参数。 参数是根据总体各单位标志值计算的,反映总体数量特征的综合指标。包括总体平均数和总体标准差。 统计量指样本各单位标志值计算的,反映样本数量特征的综合指标。包括样本平均数和样本标准差。,样本统计量的总体参数符号,总体指标和样本指标的相关公式,变量总体,总体平均数,总体标准差,总体方差,总体指标,样本指标,三、抽样推断的特点,四、抽样方法,重复抽样,不重复抽样,从总体中每次抽取一个单位登记后再重新

12、放回总体中,参加下次抽样,从总体中每次抽取一个单位登记后不再重新放回总体中,不参加下次抽样,重复抽样总体有A、B、C、D四个单位,要从中随机抽取两个单位构成样本。可先从4个单位中取一个,结果登记后放回,然后再从相同的4个中取一个,就构成一个样本。全部可能抽取的样本数目为44=16个。它们是: AA,AB,AC,AD,BA,BB,BC,BD,CA,CB,CC,CD,DA,DB,DC,DD。 一般地说,从总体N个单位中,随机抽取n个单位构成样本,则样本可能数目为 个。,不重复抽样 前例中,用不重复抽样的方法从中抽两个单位构成样本,则全部可能抽取得样本共有43=12个,它们是: AB,AC,AD,B

13、A,BC,BD,CA,CB,CD,DA,DB,DC。 一般地讲,从总体N个单位中,随机不重复抽取n个单位构成一样本,则样本可能数目为N(N1)(N2)(Nn+1) 个。 由上可知,在相同的样本容量的要求下,不重复抽样的样本可能数目比重复抽样为少。在实际工作中,一般多采用不重复抽样,但有些调查如公交车辆乘客情况的调查,商场顾客流量情况的调查只宜用重复抽样。,五、抽样调查的方法,抽样调查有四种基本方法,即简单随机抽样、等距抽样、分类抽样、整群抽样。在具体的抽样调查中,可根据调查对象的特点,单独使用其中一种方式,也可以多种方式结合使用。 1.简单随机抽样 简单随机抽样也叫纯随机抽样。它是指在进行抽样

14、时,对全及总体不经过任何形式的整理和加工,完全凭借偶然的机会从总体中抽取样本单位的抽样方式。,直接抽选法是指直接从调查对象中随机抽选。例如,从仓库中存放的所有同类产品中随机指定若干件产品进行质量检验;从粮食仓库中不同的地点取出若干粮食样本进行含杂量、含水量的检验等。 抽签法即先将全及总体各个单位按照某种自然的顺序编上号,并做成号签,再把号签掺合起来,任意抽取所需单位数,然后按照抽中的号码取得对应的调查单位加以登记调查。,随机数表是指含有一系列组别的随机数字的表格。这种表格的编制,即可以借助电子计算机产生,也可以采用数码机产生或自己编制。表中数字的出现及其排列是随机形成的。 利用随机数表进行抽样

15、的具体步骤是:先取得一份调查总体所有元素的名单(即抽样框);将总体中所有元素一一按顺序编号;根据总体规模是几位数来确定从随机数表中选几位数码;以总体的规模为标准,对随机数表中的数码逐一进行衡量并决定取舍;根据样本规模的要求选择出足够的数码个数;依据从随机数表中选出的数码,到抽样框中去找出它所对应的元素。,下表是对3000人的总体进行抽样时,我们采用后四位数码进行取舍的例子,见表:,2.类型抽样 类型抽样也叫分类抽样。它是运用统计分组法,把全及总体按主要标志划分为几个类型组,然后在各组中再按随机原则抽取样本单位的组织形式。 类型抽样有以下两个好处:第一,可以提高样本的代表性。 第二,可降低影响抽

16、样平均误差的方差。 经过划类分组后,确定各类型组抽样单位数一般有两种方法: 不等比例抽样:即各类型组所抽选的单位数,按各类型组标志值的变动程度来确定,变动程度大的多抽一些单位,变动程度小的少抽一些单位,没有统一的比例关系。 等比例抽样:即按照样本单位数在各类之间分配的比重与总体在各类之间分配相同的比重进行抽样。,3.等距抽样 等距抽样又称机械抽样。它是先将总体单位按一定标志排列起来,而后按固定顺序和一定距离来抽取样本单位的抽样方式。 采用机械抽样对总体单位进行排队,必须选择一定的标志。这种标志的选择有两种情况:一是按无关标志;二是按有关标志。无关标志就是和研究现象毫无关系的一个标志。有关标志就

17、是和被研究现象有关系的标志。,4.整群抽样 整群抽样与前几种抽样的最大区别在于,它的抽样单位不是单个的个体,而是成群的个体。它是将总体各单位划分成若干群。然后以群为单位,从中随机抽取一些群,对中选群的所有单位进行全面调查的抽样方式。整群抽样与类型抽样对比,虽然两者都是将总体划分许多组,但划分组的作用却不同。类型抽样划分的组称为“类”,它的作用是缩小总体,使总体的差异减少。而抽取的样本仍是总体单位;整群抽样划分的组是“群”,它的作用却是扩大单位。 整群抽样的优点,是组织工作比较方便,但是抽样误差较大,代表性较低。,抽样方法小结: 概率抽样和非概率抽样 概率抽样是严格意义上的抽样 特征:随机原则单

18、元入样概率已知可以计算抽样误差 应用场合:用样本推断总体,对推断误差进行描述,非概率抽样方便原则:方便选样,如街头拦截重点原则:重点调查典型原则:典型调查平均原则:选择具有平均水平的单元调查 特点:快捷,经济,技术要求不高,局限: 可以提供总体有关信息,但无法计算抽样误差, 所以无法对总体进行数量推断。 概率抽样和非概率抽样都需要,针对不同问题, 应用于不同场合。目前问题: 把非概率抽样数据当概率抽样数据使用 “随机”和“随便”的区别随机要有程序实现。,概率抽样的几个挑战 概率抽样挑战之一:目标总体与抽样总体总体与样本目标总体:要研究的总体抽样总体:产生样本的总体抽样总体的具体体现抽样框良好抽

19、样框的标志:一对一联接,概率抽样挑战之二:抽样误差与非抽样误差抽样误差:抽样随机性带来的,无法避免可以计算可以控制计算抽样误差的水平(误差计算正确)可 以体现设计人员的专业水平,非抽样误差:什么是非抽样误差 主要体现在三个方面:抽样框误差无回答误差(回答误差),无回答误差 更具一般性的理由计量误差 非抽样误差特点:难以测度,成因复杂 非抽样误差的控制可以体现调查方的执行能力,完美的调查是科学和艺术的结合 科学体现在对抽样误差的把握 艺术体现在对非抽样误差的掌控 目前我国很多抽样调查项目,科学性不足, 艺术性欠缺。 误差的计算与控制是我们面临的严重挑战,概率抽样挑战之三: 平衡的艺术精度与费用之

20、关系,精度与费用,精度,100%,95%,60%,20%,40%,.,.,费用,概率抽样挑战之四:样本量的“陷阱”问题一.估计精度越高越好吗? 简单随机抽样估计比例P的样本量与误差(当P=0.5时)样本量 误差50 0.14100 0.10500 0.0451000 0.032 对精度要求的判断十分重要。为得到最小误差而选择最大样本量不是好的选择。,问题二. 样本量与总体规模N有关吗? 例:简单随机抽样估计P,置信度95%,允许误差5%,在P=0.5条件下总体规模(N) 所需样本量(n)50 44100 80500 2221000 2865000 37010000 385100000 3981

21、000000 40010000000 400,由此可知,在同质总体和精度要求相同条件下,在北京市进行一项调查和在全国进行一项调查,样本量的差别并不大。 总体规模越大,进行抽样调查的效率越高。 若分类、分区、分层分别进行估计则另当别论。 总体规模越大,抽样调查的效率越高。 对于很小规模的总体,要取得所期望的精度,通常必须调查较大比例的样本,在经济上不合算。 所以,从抽样理论而言,抽样调查与“满足 各级政府需要”存在矛盾。,四. 关于调查方法调查方法有多种,如入户调查,电话调查,邮寄调查, 观察法,实验法等。 调查研究的基本特征:确定选题并提出假说,设计调查方法,搜集资料,分析和检验,解释结果或假

22、说。案例一:人口密度和人的行为的关系研究假说:人口密度过高可能产生负效应,引发犯罪和精神病,理论依据:马尔萨斯人口论,其论点有“人口过 剩是贫困的主要原因”,“过剩人口会造成社会 病态”。 实证依据:老鼠实验,随着实验笼里老鼠密度增 高,老鼠表现烦躁不安,母鼠不愿看护自己幼鼠 ,抢食现象加剧,最后导致自相残杀。 需研究的问题:这类现象在人类中是否存在? 难点:对人类无法使用象老鼠那样进行自相残杀 的实验。 两组设计人员分别提出了各自的方法?,组A:采用实验问卷法,具体做法是 1. 确定房间面积,招聘应试人员 2. 设计调查问卷,反映受访者心态变化,如是否喜欢新增 加的陌生人,是否容忍活动区域的

23、减小 3. 刚开始是一人一间房,以后逐次增加,每增加新人,就回答一次问题 4. 实验结果发现,高密度人群增加了人与人之间相互厌恶的倾向,组B:文档调查,具体做法是 1.按人口密度将分析区域划出若干块(实验区域为芝加哥市) 2.查阅“芝加哥地方公众记事录”,里面有人口密度,犯罪率,精神病患者人数等宝贵资料存在的问题,表象上看,人口密度和犯罪数量相关 但人口密度和犯罪数量又与另外变量,如职业、种族、教育、收入等要素相关,人口密度高的地方犯罪率高,但人口密度高的地方居住者的教育水平、收入水平偏低,黑人比例高,职业差。是职业、文化程度、收入水平影响犯罪率?还是人口密度影响犯罪率?,案例二 坏血病的原因

24、调查 17世纪初,英国海军患坏血病 背景:海上帝国,坏血病的威胁,国防部进行研究 怀疑:维生素摄入量少 实验方法:四艘军舰离港,一艘有橙汁供应 ,三艘没有结果:有橙汁供应水手身体状况良好 ,没有橙汁供应水手开始成批生病 结论:缺乏维生素摄入是导致产生疾病的原因如何完善上述实验?,问题一:患病原因可能是那三艘船上有导致 生病的物质 问题二:上有橙汁船的人可能就喜欢喝橙汁 问题三:上船之前水手身体状况一样吗?,实验法关键:分为实验组和对照组 两组其他情况相同,只有检测因素(是否喝橙汁)不同。实验者在哪个组应随机产生。 实验应采用“双盲”原则。如实验一种新药疗效,受试者不知道自己是在服药还是服替代品

25、,医生也不应知道受试者的分组情况。市场调查中很难严格控制其他因素,如想知道饮料颜色对销量是否有影响,如何设计实验就是一个挑战。,五.需要研究的一些课题 在政府统计中,抽样调查需要研究一些问题 1.样本轮换问题 涉及:轮换周期,轮换比例,轮换层次,轮换程序, 数据的衔接等问题。 中国大陆人口变动与劳动力调查样本轮换设计,数据分析 (Journal of Data Analysis),2007,8,2.抽样调查满足多层次需要问题抽样方法改进的思路:层层抽样追加样本如何在估计方法上做文章“小区域”估计问题 我国人口变动调查与劳动力调查的样本整合,经济理论与经济管理,2007,9,3.抽样调查后的数据

26、分析 盲目使用统计软件的陷阱,抽样方法与分析方法不对应。例如权数的调整问题,方差估计问题 抽样估计中的权数调整,全国统计科学研讨会学术论文,2002,8 校准调整估计量线性和指数距离函数的比较,统计与决策,2006,1 刀切法在我国劳动力调查方差估计中的应用,统计研究,2007,1 样本结构性偏差的校准加权调整方法,统计与决策,2007,5 中国人口变动的自加权抽样设计,统计与信息论坛,2007,4,4.数据的质量缺失数据问题无回答,失真数据的剔除等 缺失数据的偏差校正,数理统计与管理,2001,4 处理无回答的校准估计,统计研究,2002,6 调查中缺失数据的统计处理,市场统计与信息,200

27、5,4 统计监督的动态博弈,统计与决策,2007,4,抽样调查是科学和艺术的结合 需要本本,但不能“本本主义” 需要经验,但不能“经验主义”,抽样分布与抽样误差,一、总体和抽样分布,总体分布(Population Distribution) 总体分布指总体数据特征的概率分布. 抽样分布(Sampling Distribution) 的分布叫做抽样分布。抽样分布给出 各种可能值及其对应的概率. 一般而言,样本统计量的分布就叫作抽样分布(sampling distribution),总体分布例子,高级统计班上有5名学生,这5名学生的期中成绩为:70 78 80 80 95 x表示一名学生的成绩,表

28、1:总体频数及相对频数分布,表2:总体概率分布,抽样分布例子,重新分析一下表1中5名学生期中成绩的数据总体 不重复的从5名学生中选择3人组成样本,一共有多少种可能? 可能选取的样本总数为:,表3: 样本大小为3时 的频数及相对频数,表4: 的抽样分布(样本容量为3),二、抽样误差,抽样误差是指样本统计量和相应的总体参数值的差. 对均值而言,抽样误差= 假定样本是随机的且没有非抽样误差. 数据收集、整理、记录和制表过程中产生的误差是非抽样误差. 抽样误差是抽样调查本身所固有的和不可避免的,但我们可以计算其误差大小并通过改善抽 样条件,加以控制。,三、影响抽样误差大小因素,总体方差或总体标准差的大

29、小(正比例) 样本容量的大小(反比例) 抽样组织方式和抽样方法,抽样误差与非抽样误差 例:高级统计班上有5名学生,这5名学生的期中成绩为:70 78 80 80 95 从这一总体中选取一样本容量为3的样本,样本中学生得分分别为: 70,80和95.计算抽样误差。,解:,这样,所抽取的样本的均值较总体均值大1.07.,现假定当我们选取样本时,错误地把学生成绩80记录为82从而,我们计算的样本均值为:,样本均值和总体均值之间的差异是:这个差异并不代表抽样误差. 这个差异中,仅有1.07 是抽样误差引起的,剩余的部分差异代表非抽样误差。 且非抽样误差为: 1.70 1.07 = .66 其产生的原因

30、是由于我们的错误记录 这也就是说,,解:,(一)抽样平均误差,抽样平均误差是反映抽样误差一般水平的指标。常用抽样平均的标准差或抽样成数的标准差作为衡量误差一般水平的尺度。 计算公式:,(二)抽样极限误差,是指在明确有一定把握程度的前提下,所允许的抽样误差的可能范围,也可称之为允许误差。通常用来表示:, 或 p P,(三)抽样误差的概率度,t为抽样误差的概率度,取决于概率保证程度F(t)。概率度t与概率F(t)之间存在着一定的函数关系,并且在大样本的条件下,抽样平均数的分布趋于正态分布。,四、抽样推断的方法,(一)点估计,点估计(定值估计):用样本指标的实际值作为总体参数的估计值。 点估计就是用

31、样本估计量的一个具体观测值直接作为总体的未知参数的估计值的方法。所谓优良估计总是从总体上来评价的。,(二)区间估计,区间估计是根据一定的精确度或概率保证程度的要求,以及样本和抽样误差资料,推断总体指标区间范围的一种估计方法。区间估计:在一定概率保证下,利用实际抽样资料,指出总体被估计值的上限和下限。,(二)区间估计(续),在区间估计中,有三个基本要素:相应的概率保证程度估计值估计值的误差范围t=2 F(t)=95.45% t=3 F(t)=99.73%,区间估计:,区间估计的步骤:,1、计算样本指标数据,2、确定总体方差,,或计算样本指标方差2,3、计算平均误差,4、计算极限误差,5、区间估计

32、,参数区间估计的含义:估计总体参数的区间范围,并给出区间估计成立的概率值。其中: 1-(01)称为置信度;是区间估计的显著性水平,其取值大小由实际问题确定,经常取1%、5%和10%。 例如抽取了1000个样本,根据每一个样本均构造了一个置信区间,这样,由1000个样本构造的总体参数的1000个置信区间中,有95%的区间包含了总体参数的真值,而5%的置信区间则没有包含。这里,95%这个值被称为置信水平(或置信度)。 一般地,将构造置区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平。,置信概率:,又称置信水平或置信度,指在区间估计中,预先 选定(规定)的概率。用 1-表示

33、。常取95%或 99%。 显著性水平: 在使用置信区间作估计时,被估计的参数不在该 区间内的概率。用表示。一般取值要求较小。,置信区间表达了区间估计的精确性。 置信概率(1-)表达了区间估计的可靠性。它是区间估计的可靠概率。 显著性水平表达了区间估计的不可靠的概率。,要点,我们用95%的置信水平得到某班学生考试成绩的置信区间为60-80分,如何理解? 错误的理解:60-80区间以95%的概率包含全班同学平均成绩的真值;或以95%的概率保证全班同学平均成绩的真值落在60-80分之间。 正确的理解:如果做了多次抽样(如100次),大概有95次找到的区间包含真值,有5次找到的区间不包括真值。 真值只

34、有一个,一个特定的区间“总是包含”或“绝对不包含”该真值。但是,用概率可以知道在多次抽样得到的区间中大概有多少个区间包含了参数的真值。 如果大家还是不能理解,那你们最好这样回答有关区间估计的结果: 该班同学平均成绩的置信区间是60-80分,置信度为95%。,例1某高校有5000名学生,随机抽取250名调查每周看电视时间,资料如下:,试按不重复抽样方法,以95.45的概率推断该校全部学生每周平均看电视时间的可能范围。,已知:,解:,全校学生每周平均看电视时间在4.745.26小时之间可靠程度为95.45。,五、样本容量的确定,(一)影响样本容量大小的因素 1.总体各单位标志变异程度。 2.允许的

35、极限误差大小。 3.抽样方法。 4.抽样方式。 5.抽样推断可靠程度。,五、样本容量的确定,(二)样本容量的计算 1.在简单随机抽样组织形式下:平均数样本容量的确定(在重复抽样条件下 ),五、样本容量的确定(续),(二)样本容量的计算 2.在简单随机抽样组织形式下:成数样本容量的确定(在重复抽样条件下 ),确定必要抽样数目应该注意的问题 必要抽样数目应大于50。 实际调查时可对计算的必要抽样数目进行调整。 当总体单位数不大时,如果采用不重复抽样的方法抽取样本,必须应用不重复抽样的计算公式计算必要抽样数目;当总体单位数很大时,虽然采用不重复抽样方法,亦可采用重复抽样的计算公式计算必要抽样数目。

36、当抽样调查是为了检验全面统计数字的质量时,全及总体的标志变异指标 或p(1p)是有实际资料的,可以直接代入公式计算必要抽样数目。,如有几个方差可以选用时,宜选择最大数值。 一个总体往往同时计算抽样平均数和抽样成数。由于它们的方差和允许误差范围不同,因此,需要的必要抽样数目也不相同。为了防止由于样本单位数不足而扩大抽样误差,在实际工作中往往根据比较大的必要抽样数目进行抽样,以满足共同的需要。,例某药厂为了检验瓶装药片数量,从成品库随机抽检瓶,平均每瓶101.5片,标准差为片。试以(t)=99.73的把握程度推断成品库该种药平均每瓶数量的置信区间,如果允许误差减少到原来的 ,其他条件不变,问需要抽

37、取多少瓶?,已知:,(片),t=3,习题1 对某工厂的一批机械零件的合格率进行抽样调查,根据过去的资料,合格率曾有过99%、97%和94%三种情况,现要求允许误差不超过1%,要求推断的把握程度为95.45%,问需要抽取多少个零件?,习题2 对某油田的2000口油井的年产油量进行抽样调查。根据历史资料可知,油井年产油量的标准差为200吨,若要求抽样误差不超过15吨,概率保证程度为95.45%,试求需要调查多少口油井? F(t)= 95.45% t = 2,习题3:从某年级学生中按简单随机抽样方式抽取50名学生,对邓小平理论课进行检查,得知其平均数为75.6分,样本的标准差10 分。试以95.45%的概率保证度推断全年级学生考试平均成绩区间范围。如果其它条件不变,将允许误差缩小一半,应抽取多少名学生? 已知:求1、成绩估计区间 2、如果,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 实用文档 > 调研文书

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报