1、书山有路勤为径,学海无涯苦作舟。统计方法总结 统计方法是指有关收集、整理、分析和解释统计数据,并对其所反映的问题作出一定结论的方法。 一、统计方法的选择 统计资料丰富且错综复杂,要想做到合理选用统计分析方法并非易事。对于同一个资料,若选择不同的统计分析方法处理,有时其结论是截然不同的。 正确选择统计方法的依据是: 根据研究的目的,明确研究试验设计类型、研究因素与水平数; 确定数据特征(是否正态分布等)和样本量大小; 正确判断统计资料所对应的类型(计量、计数和等级资料),同时应根据统计方法的适宜条件进行正确的统计量值计算; 最后,还要根据专业知识与资料的实际情况,结合统计学原则,灵活地选择统计分
2、析方法。 二、统计分析的步骤 (一)收集数据 收集数据是进行统计分析的前提和基础。收集数据的途径众多,可通过实验、观察、测量、调查等获得直接资料,也可通过文献检索、阅读等来获得间接资料。收集数据的过程中除了要注意资料的真实性和可靠性外,还要特别注意区分两类不同性质的资料:一是连续数据,也叫计量资料,指通过实际测量得到的数据;二是间断数据,也叫计数资料,指通过对 (二)整理数据 整理数据就是按一定的标准对收集到的数据进行归类汇总的过程。由于收集到的数据大多是无序的、零散的、不系统的,在进入统计运算之前,需要按照研究的目的和要求对数据进行核实,剔除其中不真实的部分,再分组汇总或列表,从而使原始资料
3、简单化、形象化、系统化,并能初步反映数据的分布特征。 (三)分析数据 分析数据指在整理数据的基础上,通过统计运算,得出结论的过程,它是统计分析的核心和关键。数据分析通常可分为两个层次:第一个层次是用描述统计的方法计算出反映数据集中趋势、离散程度和相关强度的具有外在代表性的指标;第二个层次是在描述统计基础上,用推断统计的方法对数据进行处理,以样本信息推断总体情况,并分析和推测总体的特征和规律。 三、统计数据的搜集获取方法 统计数据或称统计资料,它是统计分析的基础,是进行经济研究和制定发展计划,作出各种投资、管理决策的依据。根据数据来源,社会经济统计资料可以分为初级资料和次级资料两种。 1、次级资
4、料搜集的方法 次级资料来源于各种出版物和各级政府统计网站所公布的统计公报、统计分析报告和统计数据资料。随着现代信息的广泛传播,数据搜集可以从网络、报表等多方面搜集。 2、初级资料搜集的方法 初级资料又称第一手资料,可以通过抽样调查、重点调查、典型调查、普查等调查方法搜集数据。 (1)抽样调查。抽样调查是一种非全面调查。根据随机抽样原则从总体中抽取一定数量的单位(样本)进行调查,并由得到的结果来推断总体的一般情况。与其他方法相比,抽样调查周期短、时效性强,能大大降低调查费用,能提高调查的质量,还可以用于评价、修正和补充其他调查方式得到的统计资料。因此,抽样调查不仅是一种科学的、有效地、国际通行的
5、统计调查方法,也将逐步成为我国统计调查的主体。 (2)重点调查。是在所调查的对象中选择一部分重点单位进行调查,也是一种非全面调查。优点在于投入少、效益高、速度快,可调查较多的项目和指标,了解较详细的情况。但重点调查一般不用于推断总体,因为重点单位与一般单位的情况通常差别较大。 (3)典型调查。是根据调查研究的目的和要求,在对调查对象进行全面分析的基础上有意识地选择一些具有代表性的典型单位进行深入调查。对于研究、分析社会经济生活中的新生事物,深入了解典型单位的情况以及补充、验证说明全面调查资料,都具有重要的意义。 (4)普查。是为了研究某种社会经济现象而专门组织的一时性全面调查,如全国人口普查、
6、工业普查、物资普查等。普查项目一般都属于重要的国情国力调查,通过普查能搜集到全面而系统的资料,因此在统计调查方法体系中处于基础地位。 3、统计数据调查的方法 具体有直接观察法、报告法、采访法和通讯法。 四、各种资料的统计方法 1、计量资料的统计方法 分析计量资料的统计分析方法可分为参数检验法和非参数检验法。参数检验法主要为t检验和方差分析(anovn,即f检验)等,两组间均数比较时常用t检验和u检验,两组以上均数比较时常用方差分析;非参数检验法主要包括秩和检验等。t检验可分为单组设计资料的t检验、配对设计资料的t检验和成组设计资料的t检验;当两个小样本比较时要求两总体分布为正态分布且方差齐性,
7、若不能满足以上要求,宜用t检验或非参数方法(秩和检验)。方差分析可用于两个以上样本均数的比较,应用该方法时,要求各个样本是相互独立的随机样本,各样本来自正态总体且各处理组总体方差齐性。根据设计类型不同,方差分析中又包含了多种不同的方法。对于定量资料,应根据所采用的设计类型、资料所具备的条件和分析目的,选用合适的统计分析方法,不应盲目套用t检验和单因素方差分析。 2、计数资料的统计方法 计数资料的统计方法主要针对四格表和rc表利用 检验进行分析。四格表资料:组间比较用检验或u检验,若不能满足检验:当计数资料呈配对设计时,获得的四格表为配对四格表,其用到的检验公式和校正公式可参考书籍。rc表可以分
8、为双向无序,单向有序、双向有序属性相同和双向有序属性不同四类,不同类的行列表根据其研究目的,其选择的方法也不一样。 3、等级资料的统计方法 等级资料(有序变量)是对性质和类别的等级进行分组,再清点每组观察单位个数所得到的资料。在临床医学资料中,常遇到一些定性指标,如临床疗效的评价、疾病的临床分期、病症严重程度的临床分级等,对这些指标常采用分成若干个等级然后分类计数的办法来解决它的量化问题,这样的资料统计上称为等级资料。 五、按不同标志分类的统计方法 统计分析方法,按不同的分类标志,可划分为不同的类别,而常用的分类标准是功能标准,依此标准进行划分,统计分析可分为描述统计和推断统计。 1、描述统计
9、 描述统计是将研究中所得的数据加以整理、归类、简化或绘制成图表,以此描述和归纳数据的特征及变量之间的关系的一种最基本的统计方法。描述统计主要涉及数据的集中趋势、离散程度和相关强度,最常用的指标有平均数、标准差(x)、相关系数(r)等。 2、推断统计 推断统计指用概率形式来决断数据之间是否存在某种关系及用样本统计值来推测总体特征的一种重要的统计方法。推断统计包括总体参数估计和假设检验,最常用的方法有z检验、t检验、卡方检验等。 描述统计和推断统计二者彼此联系,相辅相成,描述统计是推断统计的基础,推断统计是描述统计的升华。具体研究中,是采用描述统计还是推断统计,应视具体的研究目的而定,如研究的目的
10、是要描述数据的特征,则需描述统计;若还需对多组数据进行比较或需以样本信息来推断总体的情况,则需用推断统计。 例如,在教育领域中,在对某幼儿园大班开展一项识字教改实验,期末进行一次测试,并对测试所得数据进行统计分析。如果只需了解该班儿童识字的成绩(平均数及标准差)及其分布,此时,应采用描述统计方法;若还需进一步了解该实验班与另一对照班(未进行教改实验)儿童的识字成绩有无差异,从而判断教改实验是否有效时,除了要对两个班的成绩进行描述统计之外,还需采用推断统计方法。 六、一些常用统计方法概述 (一)参数估计 参数估计(parameterestimation)是根据从总体中抽取的样本估计总体分布中包含
11、的未知参数的方法。它是统计推断的一种基本形式,是数理统计学的一个重要分支,分为点估计和区间估计两部分。 点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的估计值。例如,设一批产品的废品率为。为估计,从这批产品中随机地抽出n个作检查,以x记其中的废品个数,用xn估计,这就是一个点估计。构造点估计常用的方法是:矩估计法。用样本矩估计总体矩,如用样本均值估计总体均值。最大似然估计法。于1912年由英国统计学家r.a.费希尔提出,利用样本分布密度构造似然函数来求
12、出参数的最大似然估计。最小二乘法。主要用于线性统计模型中的参数估计问题。贝叶斯估计法。基于贝叶斯学派(见贝叶斯统计)的观点而提出的估计法。可以用来估计未知参数的估计量很多,于是产生了怎样选择一个优良估计量的问题。首先必须对优良性定出准则,这种准则是不唯一的,可以根据实际问题和理论研究的方便进行选择。优良性准则有两大类:一类是小样本准则,即在样本大小固定时的优良性准则;另一类是大样本准则,即在样本大小趋于无穷时的优良性准则。最重要的小样本优良性准则是无偏性及与此相关的一致最小方差无偏估计,其次有容许性准则,最小化最大准则,最优同变准则等。大样本优良性准则有相合性、最优渐近正态估计和渐近有效估计等
13、。 区间估计是依据抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,作为总体分布的未知参数或参数的函数的真值所在范围的估计。例如人们常说的有百分之多少的把握保证某值在某个范围内,即是区间估计的最简单的应用。1934年统计学家j.奈曼创立了一种严格的区间估计理论。求置信区间常用的三种方法:利用已知的抽样分布。利用区间估计与假设检验的联系。利用大样本理论。 参数估计的基本方法有: (1)矩估计法。用样本矩估计总体矩,如用样本均值估计总体均值。 (2)最小二乘法: 为了选出使得模型输出与系统输出yt尽可能接近的参数估计值,可用模型与系统输出的误差的平方和来度量接近程度。使误差平方和最小的
14、参数值即为所求的估计值。 (3)极大似然法。选择参数,使已知数据y在某种意义下最可能出现。某种意义是指似然函数p(y)最大,这里p(y)是数据y的概率分布函数。与最小二乘法不同的是,极大似然法需要已知这个概率分布函数p(y)。在实践中这是困难的,一般可假设p(y)是正态分布函数,这时极大似然估计与最小二乘估计相同。 (二)假设检验 假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法。 参数估计和假设检验是统计推断的两个组成部分,它们都是用样本对总体进行某种推断,然而推断的角度不同。参数估计讨论的是用样本统计量估计总体参数的方法,总体参数在估计前是未知的。而在假设检验中,则是先对总体
15、参数的值提出一个假设,然后利用样本信息去检验这个假设是否成立。 基本原理:先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。生物现象的个体差异是客观存在,以致抽样误差不可避免,所以我们不能仅凭个别样本的值来下结论。当遇到两个或几个样本均数(或率)、样本均数(率)与已知总体均数(率)有大有小时,应当考虑到造成这种差别的原因有两种可能:一是这两个或几个样本均数(或率)来自同一总体,其差别仅仅由于抽样误差即偶然性所造成;二是这两个或几个样本均数(或率)来自不同的总体,即其差别不仅由抽样误差造成,而主要是由实验因素不同所引起的。假设检验的目的就在于排除抽样误差的影响,区分差别在统计上是否成立,并了解事件发生的概率。假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件(p 第 9 页 共 9 页