1、 1 / 7 什么是统计学,统计学的学科性质是什么? 统计学 收集数据、分析数据、并根据数据进行推断的艺术和科学。 大英百科全书 描述统计 :对所收集的数据资料进行加工整理、综合概括,通过图示、列表和数对资料继续分析和描述。 推断统计 :在搜集、整理观测样本数据的基础上,对有关总体 做出 推断,特点是根据随机性的观测样本数据以及问题的条件和假定,对未知事件 做出 的以概率形式表述的推断 1992 年 11 月,国家技术监督局 正式批准 一级学科 1998 年 教育部 本科专业调整 理学类 一级学科 统计学 是研究客观事物数量关系和数量特征的方法论学科。 研究问题 :具体 一般 具体 统计分析方
2、法 统计分析方法 分类分析方法 结构简化方法 相关分析方法 预测决策方法 聚类分析 定性资料分析 判别分析 回归方法 对应分析 因子分析 主成分分析 聚类分析 定性资料分析 对应分析 因子分析 主成分分析 典型相关分析 回归分析 回归分析 聚类分析 定性资料分析 判别分析 2 / 7 统计分析方法应用步骤及流程 现 实 经 济 问 题提 炼 具 体 问 题确 定 欲 达 到 目标根 据 定 性 理 论设 置 指 标 变 量收 集 整 理 统 计数 据根 据 目 标 和 数据 选 择 统 计 方法 , 构 造 理 论模 型进 行 统 计 计 算估 计 模 型 参 数统 计 检 验 修 改应 用统
3、计数据的整理与描述 总体和样本 统计量 样本均值 11 n iixxn 样本方差 2211 ()1 n iiS x xn 样本标准差 211 ()1 n iiS x xn 偏度 311 3()( 1)nii xxVSn 峰度 412 4()( 1)nii xxVSn 3 / 7 几种重要的概率分布 正态分布 2 分布 t 分布 F 分布 自由度 估计 点估计 区间估计 最小二乘估计 极大似然估计 矩估计 假设检验的原理与步骤 在假设检验中 ,我们要依据样本数据做出接受或拒绝 H0(原假设 )的选择 .那么做出这种选择的理论根据是什么呢 ?我们指出 ,假设检验的理论根据是 “小概 率事件的实际不
4、可能原理” ,即概率很小的随机事件在个别试验中几乎是不可能发生的 .下图给出了假设检验的原理。 由假设检验的原理可见,假设检验真正有意义的工作是在拒绝原假设时。 假设检验的一般步骤 : 1) 根据实际问题提出原假设和备择假设 ; 4 / 7 2) 给出显著性水平 ; 3) 确定合适的检验统计量 ; 4) 在认为原假设为真的前提下 ,构造一个与检验统计量有关的小概率事件 A,即确定 A,使得为真)0|( HAP ; 求出 H0的拒绝域 ,即事件 A 发生时 ,上述统计量的取值范围 . H0的拒绝域也称为假设检验的拒绝域 .根据样本观察值 ,求出统计量的观察值 ,从而确定是否接受 H0.(统计量的
5、观察值落在拒绝域内 ,则拒绝 H0; 反之 ,接受H0). 多元分布的基本概念 方阵的特征值(根)与特征向量 设 A 为一 n 阶方 阵。如果存在数 和非零的 n 维向量 X ,使得 XAX 成立,则称 为方阵 A 的特征值, X 为 A 的对应于特征值 的特征向量。 例 1 矩阵 .xls(sheet1) 正交矩阵 如果 n 阶方阵 A 满足 IAA ,则称 A 为正交阵。 A 为正交阵的充分必要条件是 A 的列向量都是单位向量,且两两正交。 例 1 矩阵 .xls(sheet2) 正定矩阵 设 A 为一 n 阶方阵。如果对任意非零的 n 维向量 X ,都有 0AXX 成立,则称 A 为一正
6、定矩阵。 半正定矩阵(定义) n 阶半正定矩阵一定有 n 个非负的特征根(包括重根)。 随机向量及其分布 随机变量就是以不同的可能性(概率)进行取值的变量 。 如: 在抽检产品时,引入随机变量 X,使正品对应 X=1,次品对应 X=0; 5 / 7 掷硬币时,引入随机变量 X, 使正面对应 X=1, 反面对应 X=0; 掷骰子时,引 入随机变量 Y, 其取值范围为 1, 2, 3, 4, 5, 6,使 Y 的每一个取值对应于一种抛掷结果; 检测白糖重量时,引入随机变量 Z, 其取值范围为 490 510,使每一检测结果都可由 Z 的一个取值表示。 随机变量可分为离散型和连续型两种。离散型随机变
7、量的全部取值可一一列举(试验结果有有限种或可列种,如某服务台前等待服务的顾客数),连续型随机变量可连续取值(对应于在一个区间内取值的情况,如电子元件的寿命,测量误差等)。 随机向量:每个分量都是随机变量的向量。 随机向量的期望与协方差矩阵 设 ),( 21 nxxxX 是一个随机向量,则称 )(,),(),()( 21 nxExExEXE 为随机向量 ),( 21 nxxxX 的期望。 对两个随机向量 ),( 21 nxxxX , ),( 21 myyyY ,称矩阵 ),c o v (),c o v (),c o v (),c o v (),c o v (),c o v (),c o v ()
8、,c o v (),c o v (),c o v (212221212111mnnnmmyxyxyxyxyxyxyxyxyxYX为这两个随机向量的 协方差矩阵 ,其中 )()(),c o v ( jjiiji yEyxExEyx 。 特别地,称 ),cov( XX 为 X 的 协方差矩阵 ,简记为 )(XV 。 称矩阵 ),(),(),(),(),(),(),(),(),(),(212221212111mnnnmmyxyxyxyxyxyxyxyxyxYX为这两个随机向量的 相关矩阵 ,其中 ),( ji yx 为随机变量 ix 和 jy 的相关系数 , 6 / 7 )()(),c o v ()
9、,(jijiji yDxD yxyx 。 特别地,称 ),( XX 为 X 的相关矩阵。 通常,我们将一个随机向量 的协方差矩阵记为 )( ij 、 相关矩阵记为 )( ijR . 任何随机向量的协方差矩阵(相关矩阵)都是半正定矩阵。 任何随机向量的 n 阶协方差矩阵(相关矩阵)都有 n 个非负的特征根(包括重根)和 n 个相互正交的单位特征向量。 多元正态分布 如果随机变量 X的概率密度函数为 xexf x ,21)( 2 22 )( , 则称 X服从参数为 2, 的正态分布,记为 X N( 2, ). 特别地 )1,0(N 称为标准正态分布。 正态随机变量的概率密度函数 )(xf 具有如下 性质 : 1 图形呈钟型,以 x 为对称轴; 2在 x 处, )(xf 取最大值。 x 值离 越远, )(xf 值越 小,且以 x 轴为渐近线。 2 越小,曲线越陡峭; 2 越大, 曲线越平缓。 2 密度曲线与 x 轴围成的面积恒等于 1. 3 2)(,)( XDXE 7 / 7 设 p 维随机向量 ),( 21 pxxxX 的联合概率密度函数为 )()(21e x p |)2( 1)( 12/12/ xxxf p , 其中 为 p 维实向量, 为 p 阶正定矩阵,则称 X 服从 p 元正态分布,也称 X 为 p 维正态随机变量,简记为 X ),( N . 此时, )(,)( XVXE