1、第 1 章 导 论,第 1 章 导 论,1.1 统计及其应用领域 1.2 统计数据的类型 1.3 统计中的几个基本概念,学习目标,1. 理解统计学的含义 2. 理解描述统计和推断统计 3. 了解统计学的应用领域 4. 了解数据的类型 5. 理解统计中的几个基本概念,2008年8月,你相信这样的一些统计结论吗?,吸烟对健康是有害的,吸香烟的男性减少寿命2250天 不结婚的男性会减少寿命3500天,不结婚的女性会减少寿命1600天 身体超重30%会使寿命减少1300天 每天摄取500毫升维生素C,生命可延长6年 身材高的父亲,其子女的身高也较高 二个出生的子女没有第一个聪明,第三个出生的子女没有第
2、二个聪明,依此类推 学生们在听了莫扎特钢琴曲10分钟后的推理测试会比他们听10分钟娱乐磁带或其他曲目做得更好 上课坐在前面的学生平均考试分数比坐在后面的学生高,1.1 统计及其应用领域,1.1.1 什么是统计学 1.1.2 统计的应用领域,什么是统计学? (statistics),统计学是收集、分析、表述和解释数据的科学(不列颠百科全书) 统计是一门收集、分析、解释和提供数据的科学(韦伯斯特国际辞典第3版) 统计指的是一组方法,用来设计实验、获得数据,然后在这些数据的基础上组织、概括、演示、分析、解释和得出结论(Mario F.Triola,初级统计学),什么是统计学? (statistics
3、),1. 收集数据:取得数据 2. 处理数据:整理与图表展示 分析数据:利用统计方法分析数据 数据解释:结果的说明 得到结论:从数据分析中得出客观结论,收集、处理、分析、解释数据并从数据中得出结论的科学,统计方法,描述统计 (descriptive statistics),研究数据收集、处理、汇总、图表描述、概括与分析等统计方法 内容 搜集数据 整理数据 展示数据 描述性分析目的 描述数据特征 找出数据的基本规律,推断统计 (inferential statistics),研究如何利用样本数据来推断总体特征的统计方法 内容 参数估计 假设检验 目的 对总体特征作出推断,统计的应用领域,经济学,
4、管理学,医学,工程学,社会学,统计学,2008年8月,统计的应用领域,【例1.1】用统计识别作者17871788年,三位作者Alexander Hamilton,John Jay和James Madison为了说服纽约人认可宪法,匿名发表了著名的85篇论文。这些论文中的大多数作者已经得到了识别,但是,其中的12篇论文的作者身份引起了争议通过对不同单词的频数进行统计分析,得出的结论是,James Madison最有可能是这12篇论文的作者。现在,对于这些存在争议的论文,认为James Madison是原创作者的说法占主导地位,而且几乎可以肯定这种说法是正确,2008年8月,统计的应用领域,【例1
5、.2】用简单的描述统计量得到一个重要发现费舍(RAFisher)在1952的一篇文章中举了一个例子,说明如何由基本的描述统计量的知识引出一个重要的发现。20世纪早期,哥本哈根卡尔堡实验室的施密特(J.Schmidt)发现不同地区所捕获的同种鱼类的脊椎骨和鳃线的数量有很大不同;甚至在同一海湾内不同地点所捕获的同种鱼类,也发现这样的倾向然而,鳗鱼的脊椎骨的数量变化不大。施密特从欧洲各地、冰岛、亚速尔群岛以及尼罗河等几乎分离的海域里所捕获的鳗鱼的样本中,计算发现了几乎一样的均值和标准偏差值。由此,施密特推断所有各个不同海域内的鳗鱼是由海洋中某公共场所繁殖的。后来名为“戴纳(Dana)”的科学考察船在
6、一次远征中发现了这个场所,2008年8月,统计的应用领域,【例1.3】挑战者号航天飞机失事预测1986年1月28日清晨,载有7名宇航员的挑战者号进入发射状态。就在发射前,有冰片牢附在机壳上。几分钟后,正当电视新闻报道它已进入轨道时,航天飞机在毁灭性的爆炸声中化成碎片,机上的宇航员片骨未存推动航天飞机进入太空的两个固体燃料发动机是由Thiokol公司制造的。失事前一天晚上,Thiokol公司的经理们和国家航空航天局就如期发射还是推迟发射产生了争执。天气预报发射时的气温为310F。争执的结果采纳了Thiokol公司经理们的建议:按计划发射航天飞机。因为他们觉得没有确凿证据表明低温会对固体燃料火箭推
7、进器的性能产生影响,2008年8月,统计的应用领域,【例1.3】挑战者号航天飞机失事预测在此次失事前,该航天飞机24次发射成功。将航天飞机送入太空的两个固体燃料推进器由6只O型项圈密封。在几次飞行中,曾发生过O型项圈被腐蚀或气体泄漏事故。这样的事故是及其危险的。前24次发射中有一次发动机遭到了永久性破坏。根据23次飞行中发生腐蚀或泄漏事故的次数(因变量)及火箭连接处的温度(自变量)数据,进行线性回归得到的回归方程为当温度为310F时,O型项圈发生事故的预计次数为2.225次。结果显示连接处的温度与O型项圈事故之间有一定的相关性。如果当时那些经理们看到了回归的预测结果,也许推迟发射会成为其谨慎的
8、选择,统计的应用领域,actuarial work (精算) agriculture (农业) animal science (动物学) anthropology (人类学) archaeology (考古学) auditing (审计学) crystallography (晶体学) demography (人口统计学) dentistry (牙医学) ecology (生态学) econometrics (经济计量学) education (教育学) election forecasting and projection (选举预测和策划) engineering (工程) epidemio
9、logy (流行病学) finance (金融) fisheries research (水产渔业研究) gambling (赌博) genetics (遗传学) geography (地理学) geology (地质学) historical research (历史研究) human genetics (人类遗传学),统计的应用领域,hydrology (水文学) industry (工业) linguistics (语言学) literature (文学) manpower planning (劳动力计划) management science (管理科学) marketing (市场营
10、销学) medical diagnosis (医学诊断) meteorology (气象学) military science (军事科学) nuclear material safeguards (核材料安全管理) ophthalmology (眼科学) pharmaceutics (制药学) physics (物理学) political science (政治学) psychology (心理学) psychophysics (心理物理学) quality control (质量控制) religious studies (宗教研究) sociology (社会学) survey sam
11、pling (调查抽样) taxonomy (分类学) weather modification (气象改善),1.2.1 分类数据、顺序数据、数值型数据 1.2.2 观测数据和实验数据 1.2.3 截面数据和时间序列数据,1.2 统计数据的类型,统计数据的分类,统计数据的分类,统计数据的分类 (按计量尺度分),分类数据(categorical data) 只能归于某一类别的非数字型数据 对事物进行分类的结果,数据表现为类别,用文字来表述 例如,人口按性别分为男、女两类 顺序数据(rank data) 只能归于某一有序类别的非数字型数据 对事物类别顺序的测度,数据表现为类别,用文字来表述 例如
12、,产品分为一等品、二等品、三等品、次品等 数值型数据(metric data) 按数字尺度测量的观察值 结果表现为具体的数值,对事物的精确测度 例如:身高为175cm、168cm、183cm 分类变量和顺序变量统称为定性变量(qualitative variable),统计数据的分类 (按收集方法分),观测的数据(observational data) 通过调查或观测而收集到的数据 在没有对事物人为控制的条件下而得到的 有关社会经济现象的统计数据几乎都是观测数据 实验的数据(experimental data) 在实验中控制实验对象而收集到的数据 比如,对一种新药疗效的实验,对一种新的农作物品
13、种的实验等 自然科学领域的数据大多数都为实验数据,统计数据的分类 (按时间状况分),截面数据(cross-sectional data) 在相同或近似相同的时间点上收集的数据 描述现象在某一时刻的变化情况 比如,2005年我国各地区的国内生产总值数据 时间序列数据(time series data) 在不同时间上收集到的数据 描述现象随时间变化的情况 比如,2000年至2005年国内生产总值数据,1.3 统计中的几个基本概念,1.3.1 总体和样本 1.3.2 参数和统计量 1.3.3 变量,总体和样本,总体(population) 所研究的全部个体(数据) 的集合,其中的每一个个体也称为元素
14、 分为有限总体和无限总体 有限总体的范围能够明确确定,且元素的数目是有限的 无限总体所包括的元素是无限的,不可数的 样本 (sample) 从总体中抽取的一部分元素的集合 构成样本的元素的数目称为样本容量或样本量 (sample size),参数和统计量,参数(parameter) 描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值 所关心的参数主要有总体均值()、标准差()、总体比例()等 总体参数通常用希腊字母表示 统计量(statistic) 用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数 所关心的样本统计量有样本均值(x)、样本标准差(s
15、)、样本比例(p)等 样本统计量通常用小写英文字母来表示,变 量 (variable),说明现象某种特征的概念 如商品销售额、受教育程度、产品的质量等级等 变量的具体表现称为变量值,即数据 变量可以分为 分类变量(categorical variable) :说明事物类别的名称 顺序变量(rank variable):说明事物有序类别的名称 数值型变量(metric variable) :说明事物数字特征的名称 离散变量:取有限个值 连续变量:可以取无穷多个值,变 量 (其他分类),随机变量和非随机变量 经验变量(empirical variables)和理论变量(theoretical variables) 经验变量所描述的是我们周围可以观察到的事物 理论变量则是由统计学家用数学方法所构造出来的一些变量,比如,z 统计量、t 统计量、2统计量、F 统计量等,变量及其类型,统计中的几个基本概念,本章小节,1. 统计及其应用领域 统计数据的类型 统计中的几个基本概念,结 束,THANKS,