1、第四章 水文统计的基本知识第一节 概述 .2第二节 概率的基本概念 .2第三节 随机变量及其概率分布 .3第四节 水文频率曲线线型 .5第五节 频率曲线参数估计方法 11第六节 水文频率计算适线法 .13第七节 相关分析 .14小结 .18课前学习指导课程要求(1)了解概率、随机变量及其概率分布的基本概念;(2)了解水文频率曲线常用的线型,要掌握 P-III 型分布曲线和经验频率曲线的性质和计算方法;(3)了解频率曲线参数的估算方法,要掌握矩法估算参数的方法;(4)掌握水文频率计算适线法的具体步骤和方法,特别是参数对频率曲线的影响;(5)了解相关分析的基本概念和方法,特别要掌握两变量直线相关、
2、曲线相关的方法和具体步骤。 课时安排共需 6 个课内学时,10 个课外学时课前思考频率与概率有何区别与联系?某水利枢纽施工期预定 3 年,施工用的围堰的设计标准按照 20 年一遇洪水设计,在施工期内发生设计洪水的概率、一次也不发生设计洪水的概率?水文变量常用线型与参数估计方法?进行回归(相关)分析,其目的是什么?如何提高参数估计的精度?学习重点掌握 PearsonIII 型分布曲线性质与计算方法,如何利用适线法估计水文系列参数; 难点如何灵活应用概率论原理(如古典概率,概率的加法和乘法定律等)计算事件发生的概率,如何调整参数使得水文理论频率曲线与经验点据拟合好?第一节 概述一、水文现象的特性水
3、文现象是一种自然现象,它具有必然性的一面,也具有偶然性的一面。1、必然现象是指在一定条件下,必然出现或不出现的现象;水文学中称水文现象的这种必然性为确定性。2、偶然现象是指在一定条件下,可能出现也可能不出现的现象,偶然现象也称随机现象;偶然现象仍然是有规律的,一般称为统计规律。二、水文统计规律的研究 - 水文统计数学中研究随机现象统计规律的学科称为概率论, 而由随机现象的一部分试验资料去研究总体现象的数字特征和规律的学科称为数理统计学。概率论与数理统计学应用到水文分析与计算上则称为水文统计。三、水文统计的任务水文统计的任务就是研究和分析水文随机现象的统计变化特性。并以此为基础对水文现象未来可能
4、的长期变化做出在概率意义下的定量预估,以满足工程规划、设计、施工以及运营期间的需要。水文统计的基本方法和内容具体有以下两点:1、根据已有的资料(样本),进行频率计算,推求指定频率的水文特征值;2、研究水文现象之间的统计关系,应用这种关系延长、插补水文特征值和作水文预报。第二节 概率的基本概念一、事件 在概率论中 , 对随机现象的观测叫做随机试验 , 随机试验的结果 称为事件。事件可以分为必然事件、不可能事件和随机事件三种。二、概率 随机事件的概率反映事件发生的可能性大小。随机事件的概率可由下式计算: (4-2-1) 式中: P(A)在一定条件组合下,出现随机事件 A 的概率; k 出现随机事件
5、 A 的结果数; n 在试验中所有可能出现的结果数。 随机事件的概率介于 0 与 1 之间。三、频率 设随机事件 A 在重复 n 次试验中出现的 m 次,则称 为事件 A 在 n 次试验中出现的频率。注意区别概率与频率计算中 n 的含义不同,频率随试验次数而变,但概率是客观存在的。四、概率加法定理和乘法定理 1、两事件和的概率 两个互斥事件 A、B 出现的概率等于这两个事件的概率的和,即 P(A+B)= P(A)+P(B) 式中 : P(A+B)-实现事件 A 或事件 B 的概率; P(A)- 事件 A 的概率; P(B)- 事件 B 的概率。 2、条件概率 两个事件 A、B,在事件 A 发生
6、的前提下,事件 B 发生的概率为事件 B 在条件 A 下事件 B 条件概率,记为: P(BA) 3、两事件积的概率 两事件积的概率,等于其中一事件的概率乘以另一事件在已知前一事件发生的条件下的条件概率,即 P(AB)= P(A)P(BA),P(A)0 P(AB)= P(B)P(AB),P(B)0 若两个事件是相互独立的,它们共同出现的概率等于事件 A 的概率乘以事件 B 的概率,即 P(AB)=P(A)P(B)第三节 随机变量及其概率分布一、随机变量 随机试验的结果可以是一个数量,也有些虽然不是数量,但可以用数量来表示。这样的量随着试验的重复可以取得不同的数值,而且带有随机性,我们称这样的变量
7、为随机变量。随机变量可分为两大类型:离散型和连续型。二、随机变量的概率分布1、离散型随机变量的概率分布 离散型随机变量的概率分布一般以分布列表示,如表 4-3-1 。 表 4-3-1 X x1 x2 xn P p1 p2 pn 注意:p n =1 。2、连续型随机变量的概率分布 对于连续型随机变量,无法研究个别值的概率,只能研究某个区间的概率,或是研究事件 Xx 的概率,以及事件 Xx 的概率,后面二者可以相互转换,水文统计中常用Xx 的概率及其分布。3、分布函数 设事件 Xx 的概率用 P(Xx)来表示,它是随随机变量取值 x 而变化的,所以P(Xx)是 x 的函数,称为随机变量 x 的分布
8、函数,记为 F(x),即F(x)=P(Xx) (4-3-1)它代表随机变量 X 大于等于某一取值 x 的概率。其几何图形如图 4-3-1(b)所示, 图中纵坐标表示变量 x,横坐标表示概率分布函数值 F(x),在数学上称此曲线为分布曲线,水文统计中称为随机变量的累积频率曲线,简称频率曲线。注意在一般的概率论与数理统计的教材中,分布函数的定义为 F(x)=P(X2,即 C s 时,密度曲线呈铃形,起点处曲线与 x 轴相切,右端无限,如图 4-4-4 (d) 所示。 图 4-4-4 (d)皮尔逊密度曲线形状变化图不同偏态系数情况下,其分布密度曲线形状差异很大,C s大于等于 2 时为乙型,C s大
9、于零小于 2 时为铃形。 2、皮尔逊型频率曲线及其绘制 水文计算中,一般需要求出指定频率 P 所相应的随机变量取值 xp,也就是通过对密度曲线进行积分,即(4-4-4)求出等于及大于 xp的累积频率 P 值。直接由式( 4-4-4 )计算 P 值非常麻烦,实际做法是通过变量转换,变换成下面的积分形式 :(4-4-5) 式(4-4-5)中被积函数只含有一个待定参数 Cs,其它两个参数 、Cv 都包含在 中。 是标准化变量, 称为离均系数。 的均值为 0,标准差为 1。因此,只需要假定一个 Cs 值,便可从式(4-4-5)通过积分求出 P 与 之间的关系。对于若干个给定的 Cs 值, 和 P 的对
10、应数值表先后由美国福斯特和前苏联雷布京制作出来,见附表 1“ 皮尔逊型频率曲线的离均系数 值表 “。由 就可以求出相应频率 P 的 x 值:(4-4-6) 附表 1 (摘录)在频率计算时,由已知的 Cs 值,查 值表得出不同的 P 的 ,然后利用已知的 、Cv,通过式(4-4-6)即可求出与各种 P 相应的 x,从而可绘制出皮尔逊型频率曲线。三、 经验频率曲线 上述各种频率曲线是用数学方程式来表示的 , 属于理论频率曲线。在水文计算中还有一种经验频率曲线 , 是由实测资料绘制而成的 , 它是水文频率计算的基础 , 具有一定的实用性。1、经验频率曲线的绘制根据实测水文资料,按从大到小的顺序排列,
11、然后用经验频率公式计算系列中各项的频率,称为经验频率。以水文变量 x 为纵坐标,以经验频率 P 为横坐标,点绘经验频率点据,根据点群趋势绘出一条平滑的曲线,称为经验频率曲线。有了经验频率曲线,即可在曲线上求得指定频率 P 的水文变量值 x对经验频率的计算,目前我国水文计算广泛采用的是数学期望公式: ( 4-4-13 ) 式中 p- 等于和大于 xm的经验频率; m- x m的序号,即等于或大于 xm的项数; n-系列的总项数。 2、经验频率曲线存在的问题 经验频率曲线计算工作量小,绘制简单,查用方便,但受实测资料所限 , 往往难以满足设计上的需要。为此,提出用理论频率曲线来配合经验点据,这就是
12、水文频率计算适线法。四、 频率与重现期的关系 频率曲线绘制后,就可在频率曲线上求出指定频率 p 的设计值 xp。由于“频率“较为抽象,水文上常用“重现期“来代替“频率“。所谓重现期是指某随机变量的取值在长时期内平均多少年出现一次,又称多少年一遇。根据研究问题的性质不同,频率 P 与重现期T 的关系有两种表示方法。 1、当为了防洪研究暴雨洪水问题时,一般设计频率 P50,则 : T=1/P (4-4-6)式中:T重现期,年; P频率,。 2、水库兴利调节研究枯水问题时,设计频率 P50 ,则T=1/(1-P) (4-4-7)第五节 频率曲线参数估计方法 实际上,可以通过观测得到若干年份的资料(也
13、称实测样本)。在总体线型确定的情况下,需要由某种参数估计方法依据实测样本估计总体参数,从而可以计算不同标准的设计值。目前水文中 Pearson-III 型参数估计方法主要有矩法、概率权重矩法、权函数法和适线法等。在我国水利水电工程设计洪水计算规范(1993)中要求使用目估适线法(含优化适线法)作为最终确定参数估计值的方法,而矩法、概率权重矩法、权函数法只用于适线法参数初值的估计。考虑到两种新方法概率权重矩法、权函数法较为复杂,故本节主要介绍 矩法和抽样误差的概念,下节再介绍适线法。一、 矩法矩法是用样本矩估计总体矩,并通过矩和参数之间的关系,来估计频率曲线参数的一种方法。 前述,一阶原点矩的计
14、算公式就是均值 ,均方差 的计算式为二阶中心矩开方,偏态系数 Cs计算式中的分子则为三阶中心矩。它们与相应的总体同名参数相比,不一定相等,平均上说,Cv, Cs 往往会偏小。因此,需要将上述公式加以修正,修正后的参数计算式为: (4-5-1) (4-5-2) (4-5-3) (4-5-4)二、 抽样误差 用一个样本的统计参数来代替总体的统计参数是存在一定误差的,这种误差是由于从总体中随机抽取的样本与总体有差异而引起的,与计算误差不同,称为抽样误差。 抽样误差的大小由均方误来衡量。计算均方误的公式与总体分布有关。对于皮尔逊型分布且用矩法估算参数时,用 、 、 、 分别代表 、 、Cv 和 Cs
15、样本参数的均方误,则它们的计算公式为 (4-5-5) (4-5-6) (4-5-7) (4-5-8) 由上述公式可见,抽样误差的大小,随样本项数 n、Cv、和 Cs 的大小而变化。样本容量大,对总体的代表性就好,其抽样误差就小,这就是为什么在水文计算中总是想方设法取得较长的水文系列的原因。第六节 水文频率计算适线法适线法(或称配线法)是以经验频率点据为基础,在一定的适线准则下,求解与经验点据拟合最优的频率曲线参数,是我国估计水文频率曲线统计参数的主要方法。适线法主要有两大类,即目估适线法和优化适线法 。 目估适线法 1、目估配线法的作法与步骤 目估配线法又称目估适线法,是以经验频率点据为基础,
16、给它们选配一条符合较好的理论频率曲线,并以此来估计水文要素总体的统计规律。具体步骤如下: - 将实测资料由大到小排列,计算各项的经验频率,在频率格纸上点绘经验点据(纵坐标为变量的取值,横坐标为对应的经验频率) - 选定水文频率分布线型(一般选用皮尔逊型)。 - 先采用矩法或其它方法估计出频率曲线参数均值和 Cv 的初估值,而 Cs 凭经验初选为 Cv 的倍数,有时也直接用矩法估计。 - 根据拟定的均值、Cv 和 Cs,查附表 1,计算 值。以水文变量取值为纵坐标,经验频率为横坐标,即可得到频率曲线。将此线画在绘有经验点据的图上,看与经验点据配合的情况。若不理想,可通过调整 Cv 和 Cs 点绘
17、频率曲线。 - 最后根据频率曲线与经验点据的配合情况,从中选出一条与经验点据配合较好的曲线作为采用曲线,相应于该曲线的参数便看作是总体参数的估值。 - 求指定频率的水文变量设计值。2、统计参数对频率曲线的影响 为了避免配线时调整参数的盲目性,必须了解皮尔逊型分布的统计参数对频率曲线的影响。 - 均值 对频率曲线的影响 当皮尔逊型频率曲的两个参数 Cv 和 Cs 不变时,由于均值的不同,可以使频率曲线发生很大的变化,- 变差系数 Cv 对频率曲线的影响 为了消除均值 的影响,我们以模比系数 K 为变量绘制频率曲线,如图 图 4-6-2 Cs = 1.0 时,各种 Cv 对频率曲线的影响4-6-2
18、 所示。图中 Cs=1.0。Cv=0 时,随机变量的取值都等于均值,此时频率曲线即为 k=1 的一条水平线,随着 Cv 的增大,频率曲线的偏离程度也随之增大,曲线显得越来越陡。 - 偏态系数 Cs 对频率曲线的影响 图 4-6-3 表示 Cv=0.1 时种种不同的 Cs 对频率曲线的影响情况。从图中可以看出,正偏情况下,Cs 愈大,均值(即图中 k=1)对应的频率愈小,频率曲线的中部愈向左偏,且上段愈陡,下段愈平缓。 应用程序实例:这是一个 P-频率曲线目估适线的可执行程序。通过调整 Cv、Cs 两个参数,点线拟合状况会发生变化。第七节 相关分析一、相关关系的概念 1、相关的意义与应用 自然界
19、中有许多现象之间是有一定联系的。按数理统计法建立上述两个或多个随机变量之间的联系,称之为相关关系。把对这种关系的分析和建立称为相关分析。相关分析可以用来延长和插补短系列。 2、相关的种类 根据变量之间相互关系的密切程度,变量之间的关系有三种情况:即完全相关、零相关、统计相关。 - 完全相关(函数关系) 两变量 x 与 y 之间,如果每给定一个 x 值,就有一个完全确定的 y 值与之对应,则这两个变量之间的关系就是完全相关(或称函数相关)。完全相关的形式有直线关系和曲线关系两种,如图 4-7-1 所示。 图 4-7-1 完全相关示意图 - 零相关(没有关系) 两变量之间毫无联系,或某一现象(变量
20、)的变化不影响另一现象(变量)的变化,这种关系则称为零相关或没有关系,如图 4-7-2 所示。 图 4-7-2 零相关示意图 - 相关关系 若两个变量之间的关系界于完全相关和零相关之间,则称为相关关系或统计相关。当只研究两个变量的相关关系时,称为简相关;当研究 3 个或 3 个以上变量的相关关系时,则称为复相关。在相关的形式上,又可分为直线相关和非直线相关,如图 4-7-3 所示。 (a) 直线相关 (b)曲线相关图 4-7-3 3相关分析的内容 相关分析(或回归分析)的内容一般包括三个方面: (1)判定变量间是否存在相关关系,若存在,计算其相关系数,以判断相关的密切程度; (2)确定变量间的
21、数量关系回归方程或相关线; (3)根据自变量的值,预报或延长、插补倚变量的值,并对该估值进行误差分析。二、一元线性相关1、相关图解法 设 xi和 yi代表两系列的观测值,共有 n 对,把对应值点绘于方格纸上,得到很多相关点。如果相关点的平均趋势近似直线,即可通过点群中间及 、 )点绘出相关直线,2、相关计算法 为避免相关图解法在定线上的任意性,常采用相关计算法来确定相关线的方程,即回归方程。简直线相关方程的形式为 : y=a+bx (4-7-1) 式中 x自变量; y倚变量; a、b待定常数。 待定常数 a 、 b 由观测点与直线拟合最佳,利用最小二乘法进行估计。最后得到如下形式的回归方程:
22、(4-7-2) 式中 、 x、y 系列的均方差; 、 x、y 系列的 均值; r相关系数,表示 x、y 两系列间的线性关系密切程度,计算式为 (4-7-3) 此式称为 y 倚 x 的回归方程,它的图形称为 y 倚 x 的回归线,如图 4-7-4 的(a)线所示。若以 y 求 x,则要应用 x 倚 y 的回归方程,如图 4-7-4 的(b)线所示。x 倚 y 的回归方程为: (4-7-4) 一般 y 倚 x 与 x 倚 y 的两回归线并不重合,但有一个公共交点( )。 3、相关分析的误差 - 回归线的误差 回归线仅是观测点据的最佳配合线,通常观测点据并不完全落在回归线上,而是散布于回归线的两旁。
23、 因此,回归线只反映两变量间的平均关系。按此关系由 推求的 和实际值之间存在着误差,误差大小一般采用均方误来表示。 如用 S y 表示 y 倚 x 回归线的均方误, y i为观测值, 为回归线上的对应值, n 为系列项数,则 同样,x 倚 y 回归线的均方误 S i为 - 相关系数误差 在相关分析中,相关系数是根据有限的实测资料(样本)计算出来的,必然会有抽样误差。一般通过相关系数的均方误来判断样本相关系数的可靠性,按统计学原理,相关系数的均方误为 - 相关系数的统计检验 总体不相关(r=0)的两变量,由于抽样原因,样本的相关系数不一定等于零。为此,需要对相关系数进行显著性检验。 检验方法是:
24、先选一个临界相关系数 r ,与样本的相关系数 r 相比较,若rr ,则具有相关关系;否则,无相关关系。r 可以根据样本项数 n 和信度 (一般采用 =0.05 )从已制成的相关系数检验表中查取。三、曲线相关 许多水文现象间的关系,并不表现为直线关系而具有曲线相关的形式。水文上常采用幂函数、指数函数两种曲线,基本作法是将其转换为直线,再进行直线回归分析。 1、幂函数 幂函数的一般形式为 y=ax b (4-7-8)两边取对数 logy =loga + blogx 令 Y = log y, A = log a, X = logx 则有 Y = A+bX (4-7-9) 对 X 和 Y 而言就是直线
25、关系,可对其作直线回归分析。 2、指数函数 指数函数的一般形式为 y = Ae bX (4-7-10) 两边取对数 logy = loga +bxloge 令 Y = logy ,A = loga, B = bloge, X= x 则有 Y = A+BX (4-7-11) 这样对 X 和 Y 同样也可作直线相关分析。小结 本章是以下设计年径流及年内分配分析和不同途径推求设计洪水计算的重要基础,考虑到学习本课程的多数同学已学过概率论与数理统计课程,因此,在学习过程中要明确它们之间的区别,即一般的概率论与数理统计重点研究正态分布,推导多且严密,而本章水文统计则更注重研究偏态分布,且注重知识的实际应用