1、第 3章 样本几何与随机抽样 3.1 引言 深入的研究描述性统计量 的几何解释 引入一个用来描述变化性的单一的数,称为广义方差 直接从数据矩阵 X计算 ,以及变量的线性组合的均值和协方差之间的联系 3.2 样本几何 p个变量的 n个观测值,可以把数据集放在一个 n p的列阵(矩阵)中: 数据可以用两种不同方式划分。对 p维散点图而言 X的行表示 p维空间中的 n个点 .可以写为 如果把这些点当做实心球 ,由式 (1-8)所给出的样本均值向量 是平衡心 . 另一种几何表示法是通过把数据看做 n为空间的 p个向量来构造的 . 选取数据矩阵的列的元素作为向量的坐标 .令 则第一个点的坐标 是第一个变
2、量的 n个测量结果 . 在这一几何表示中 是作为向量而不是作为 p维空间散点图的点来描述的 . 样本均值的几何解释 首先,定义 n 1向量 ,向量 1与 n个坐标的每一个形成等角,这样向量 在等角方向上为单位长度 . 设向量 .由公式 (2-8),yi在单位向量 的投影是, 更进一步,有分解 其中 垂直于 .偏差向量为 di的元素是第 i个 变量的测量值与 样本均值的偏差, 偏差向量 现在考虑偏差向量的长度平方,利用公式( 2-5)和式( 3-4),得到 对于任意两个偏差向量,有 令 表示两个偏差向量的角,从式( 2-6),得到 因此, 3.3 随机样本以及样本均值和协方差矩阵的期望值 令数据
3、矩阵中的第( j, k)个元素代表随机变量 ,p个变量的每组测量结果 Xj是一个随机向量,且有随机矩阵 如果式( 3-8)中的行向量 代表来自密度函数为 的一个公共联合分布的独立观测值,则称 构成一个来自 的随机样本。 对随机样本的定义有两点特别值得注意: 1.在单个试验中, p个变量的测量后果,例如 ,常常是相关的。然而,从不同试验得到的测量结果必然是独立的。 2.当变量可能会随时间缓慢地变化时,各次试验的测量结果的独立性可能不成立。 统计独立的概念对测量距离有重要意义。若向量之间是独立的并有相同的方差,欧几里德距离是合适的。否则,采用如同第 1和 2章介绍的“统计”距离或二次型更为合适。
4、3.4 广义方差 在单变量情形下,样本方差通常用来描述该变量的观测值变差的程度。当在每组观测到 p个变量时,变差是用样本方差 -协方差矩阵来描述的。 有时,希望对用 S表示的变差能给定一个数值。我们选择这一数值为 S的行列式,该行列式称为广义方差: 广义方差的几何解释 考虑由两个偏差向量 在平面内生成的一个区域。 此面积可表示为 对于 p个偏差向量,我们可以确定下面一般性的结论 可以利用积分计算证明超椭球的体积与广义方差有关,具体的 虽然,广义方差有一些直观合意的几何解释,作为样本协方差矩阵 S的一个描述概况量,它有一个基本缺点,如下例所示。 例 3.8 (解释广义方差) 图 3.7给出了三个
5、相关模式很不同的散布图,全部三个数据集有 且协方差矩阵是 从 S计算出的特征值和特征向量可进一步描述散布图中的模型, 对于三种情况,中心是 的椭圆是 椭圆的轴延伸方向为 S的特征向量,轴长与 S的特征值平方根成比例。 注意到三个散布图覆盖了大约相同的面积,由于所有的 ,因此概况变化性的椭圆恰好有相同的面积。 正如例 3.8所表明的,不能由 发现不同的相关结构。 因此,经常希望不仅仅用单一数 作为 S 的一个概率量。 从练习 2.12可知, 可以表示为 S的特征值的乘积。基于 S-1的均值中心椭球具有长度与特征值平方根成比例的轴(参见式( 3-16) 。因此,这些特征值提供了在 p维空间中表现数
6、据在所有方向上的变化性的信息。 广义样本方差为零的情况 在某些情况中,广义样本方差将是零。在偏差矩阵 至少有一列可表示为其他列的线性组合时,一个为零的广义方差表示极值退化。 结论 3.2 广义方差为零,当且仅当至少一个偏差向量位于由其他向量的所有线性组合形成的(超)平面内 也就是说,式( 3-18)中的偏差矩阵的列线性相关。 由 确定广义方差及其几何解释 广义样本方差受到单个变量观测结果的变化性的过度影响。 因此,有时改变所有偏差向量的比例,使它们有相同的长度,是有用的。 改变剩余向量的比例,相当于对每一个原始的观测值的标准化值替换。标准化变量的样本协方差矩阵就是 R 所有得到的向量 的长度为 当这些向量几乎正交时,标准化变量的广义样本方差较大,而当这些向量的两个或更多个几乎是同一方向时,广义样本方差较小。 在 p维空间中由偏差向量生成的体积,与广义样本方差有关,采用与推导式( 3-15)同样的步骤,有: 3.5 作为矩阵运算的样本均值、协方差与相关系数 另外,一直广义方差定义为: 我们有 ,因此, 接下来,建立一个 n p均值矩阵,即 从 X减去这一结果,产生 n p偏差(剩余)矩阵,