1、第一章 绪论,学习目标: 理解统计学的概念 了解统计学的应用领域 了解数据的类型 理解统计中的几个基本概念,1.1统计及其应用领域,111 什么是统计学statistics 1、统计学是收集、分析、表达和解释数据的科学(不列颠百科全书) 2、统计是一门收集、分析、解释和提供数据的科学(韦伯斯特国际词典第3版) 3、统计指的是一组方法,用来设计实验、获得数据、然后在这些数据的基础上组织、演示、分析、解释和得出结论(Marion F. T.,初级统计学),统计定义:统计学是一门收集、整理和分析数据的方法的科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。收集数据:调查或实验取得数
2、据。 处理数据:数据的整理与图表展示。 分析数据:利用统计方法分析数据。 数据解释:结果的说明。 得到结论:从数据分析中得出客观结论。,生物统计学 生物统计是数理统计的原理和方法在生物科学研究中的应用,是一门应用数学。 一、提供试验或调查设计的方法 二、提供整理、分析资料的方法,112 统计方法:,描述统计 研究数据收集、整理和描述的统计学分枝 内容:收集数据整理数据展示数据描述性分析 目的描述数据特征找出数据的基本规律,推断统计 研究如何利用样本数据来推断总体特征的统计学分枝 内容:参数估计假设检验 目的:对总体特征作出推断。,描述统计与推断统计的关系,113 统计应用领域,非常广泛: 举出
3、一个统计没有用途的领域名称比举出一个统计作为其组成部分的领域名称要困难得多。Robert Johnson,12 统计数据的类型,121统计数字按计量层次分类,1分类数据(categorical data) 只能归于某一类别的非数值字型数据 对事物进行分类的结果,数据表现为类别,常用文字表述。 例如:人口按性别分为男、女两类。,2.顺序数据(rank data)只能归于某一有序类别的非数值字型数据对事物类别顺序的测度,数据表现为类别,常用文字表述。 例如:产品分为一等品、二等品、三等品、次品等。,3数值型数据(metric data) 按数值尺度测量的观察值 结果表现为具体的数值,对事物的精确测
4、度。 例如:身高为175cm、168cm、183cm。 数值型数据又可分为连续变量和非连续变量(离散变量) 连续变量:表示在变量范围内可抽出某一范围的所有值,这种变量之间是连续的、无限的。如小麦的株高在8090cm,在此范围内可取无数个变量。 离散变量:表示在变量数列中,仅能取固定的数值。如小白鼠每胎产仔数;某样点的人口数等。,122 统计数据按收集方法分类,1观测的数据(observational data) 通过调查或观测而收集到的数据。 在没有对事物人为控制的条件下而得到得数据。 有关社会经济现象得统计数据都是观测数据;部分自然科学领域的数据也可以通过调查和观测获得。 2试验数据(exp
5、erimental data) 在试验中控制试验对象和试验条件而收集到的数据。 比如对一种新药疗效的试验,对一种新的农作物品种的试验等。 自然科学领域的数据大多数都为试验数据。,123 统计数据按时间分类,1截面数据(cross-sectional data)在相同或近似(可以认为相同)的时间点上收集的数据 描述现象在某一时刻的变化情况 比如2005年我国各地的国内生产总值数据 2时间序列数据 在不同时间上收集的数据 描述现象随时间变化的情况 比如2000年至2005年国内生产总值数据,13 统计中的几个基本概念,总体和样本 参数和统计量 变量 随机误差与系统误差 准确性与精确性,131 总体
6、和样本,1总体(population)所研究的全部个体(数据)的集合,其中的每个个体称为元素。 总体分为有限总体和无限总体: 有限总体的范围能够明确确定,且元素的数目是有限的 无限总体所包括的元素是无限的,不可数的。 2样本(sample) 从总体中抽出的一部分元素的集合。 构成样本的元素的数目称为样本容量或样本量(sample size)。,132 参数和统计量,1参数(parameter) 描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值。 所关心的参数主要有总体均值()、标准差()、总体比例( )等。 总体参数通常用希腊字母表示。 2统计量(statistic) 用来描述
7、样本特征的概括性数字度量,它是根据样本数据计算出来的一些量(值),是样本的函数。 所关心的样本统计量有样本均值( )、样本标准差(s)、样本比例(p)等。 样本统计量通常用小写英文字母表示。,133 变量,1说明现象某种特征的概念,相同性质的事物间表现差异性或差异特征的数据称为变量,它表示在一个界限内变动着的性状的数值。如商品销售额、受教育程度、产品的质量等级等。变量的具体表现称为变量值,即数据。,2变量可以分为以下几类:分类变量(categorical variable): 说明事物类别的名称顺序变量(rank variable): 说明事物有序类别的名称数值型变量(metric varia
8、ble): 说明事物数字特征的名称离散变量:取有限个值连续变量:可以取无穷多个值,变量的其它分类: 随机变量和非随即变量 经验变量(empirical variables)和理论变量(theoretical variables) 经验变量所描述的是我们可以观察或试验探测到的事物 理论变量则是由统计学家用数学方法所构建出来的一些变量,比如,z统计量、t统计量、F统计量、X2统计量等。,134准确性与精确性,准确性(accuracy)也叫准确度,指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。设某一试验指标或性状的真值为,观测值为 x,若 x与相差的绝对值|x|小,则观测值x的准确性
9、高;反之则低。 精确性(precision)也叫精确度,指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。若观测值彼此接近,即任意二个观测值xi 、xj 相差的绝对值|xi xj |小,则观测值精确性高;反之则低。,准确性、精确性的意义图示如下:,图1-1 准确性与精确性示意图,图1-1(a)观测值密集于真值两侧,其准确性高、精确性亦高;图1-1(b)观测值稀疏地分布于真值两侧,其准确性高,精确性却低;图1-1(c)观测值密集于远离真值的一侧,准确性低,精确性高;图1-1(d)观测值稀疏的分布于远离真值的一侧,其准确性、精确性都低。,135 随机误差(random error)与系统误差(systematic error),随机误差也叫抽样误差(sampling error),这是由于许多无法控制的内在和外在的偶然因素所造成。随机误差带有偶然性质,在试验中,即使十分小心也难以消除。随机误差影响试验的精确性。统计上的试验误差指随机误差。这种误差愈小,试验的精确性愈高。 系统误差也叫片面误差(lopsided error),这是由于试验动物的初始条件未控制相同,测量的仪器不准、标准试剂未经校正,以及观测、记载、抄录、计算中的错误所引起。系统误差影响试验的准确性。,14 几种常用的统计软件,1SAS 2SPSS 3STATISTICA 4S-PLUS 5R 6Excel,