1、第四章、水文统计学,随机变量及其分布参数水文中常用的概率分布曲线统计参数估计方法相关分析水文时间序列分析,学习要求:(1)了解概率、随机变量及其概率分布的基本概念;(2)了解水文频率曲线常用的线型,要掌握P-III型分布曲线和经验频率曲线的性质和计算方法;(3)掌握水文频率计算适线法的具体步骤和方法,特别是参数对频率曲线的影响;(5)了解相关分析的基本概念和方法,特别要掌握两变量直线相关、曲线相关的方法和具体步骤;(6)水文过程的随机模拟。,水文现象具有二重性:水文现象包含着必然性,水文现象也包含着偶然性,对水文的偶然现象(或称随机现象)所遵循的规律一般称做统计规律。,4.1.1 概率的基本概
2、念与定理 1.事件 :是指随机试验的结果。 事件有两种属性: 数量性质:直接测量的量或计算的量,如 年降雨量,年径流量. 属性性质: 直接观测到的现象,如天气的 雨天和晴天,婴儿性别,钱币 的正面和背面 .,4.1. 随机变量及其分布参数,1)必然事件2)不可能事件3)随机事件,事件可以分为三种类型:,2.概率 为了比较某随机事件出现(或不出现)的可能性大小,必然赋予一种量化的(以数量表示)指标,这个数量指标就是事件的概率。,式中 ,P(A) :一定条件下随机事件A的概率; n :试验中所有可能的出现的结果数; m :出现随机事件A的结果数。,简单(古典)的随机事件的概率定义用下式表示:,古典
3、的随机试验是指所有试验的可能结果都是等可能的,而且试验的可能结果的总数是有限的。但水文事件不一定符合这种性质。,对于不是古典概型事件,只能通过多次重复试验来估计事件的概率。 设事件A在n 次随机试验中出现了m 次,则称:,3.频率,为事件A 在n 次试验中出现的频率。注意:n 不是所有可能的结果总数,仅是随机试验的次数。, 频率: 频率是通过若干次试验后才能求得的经验值,事先不能确定,当试验次数n愈大,即当n趋于无穷大时,理论上,n变成试验中所有可能的结果总数,则频率愈接近概率。,概率和频率的区别:, 概率: 在等可能条件下,表达事件客观上出现的可能性大小,是一个理论值。,1.随机变量 用以表
4、示随机试验结果的一个数量(事先是未知的),由于它事先不能确定,是随机的,称为随机变量。水文现象中的随机变量,一般指某个水文特征值(如年径流量、年降雨量、洪峰流量等)。,4.1.2. 随机变量及其分布参数, 总体 在统计数学中,把某种随机变量所取数值的全体,称为总体。 如年径流量的总体数是无穷的。,统计学中几个概念:, 样本 从总体中不带主观成分任意抽取的一部分,称为样本。样本所包含的项数,称为样本容量。 如实测的水文资料是有限的,是一样本。,它是指随机试验结果的一个数量。在水文学中,常用大写字母表示,记作X,而随机变量的可能取的值记作x,即: X = x1, X = x2, X = xn 一般
5、称之为随机系列或随机数列。, 随机变量的表示:, 离散型随机变量 随机变量仅取得区间内某些间断的离散值,则称为离散型随机变量。如洪峰次数,只能取0, 1, 2,不能取相邻两数值之间的任何值。,随机变量的分类:, 连续型随机变量 随机变量可以取得一个有限区间内的任何数值,则称为连续型随机变量。如某河流断面的流量可以取0 极限值之间的任何实数值。, 对于离散型随机变量: 随机变量的取某一可能值的机会有的大有的小,即随机变量取值都有一定的概率与之相对应,可表示为:,2.随机变量的概率分布,上式中P1, P2, Pn 表示随机变量X 取值x1, x2, xn 所对应的概率。,一般将这种对应关系称作随机
6、变量的概率分布规律,简称为分布律。可以用以下的分布图形表示:,由于它的所有可能取值有无限个,而取个别值的概率为零,故无法研究个别值的概率。水文学上习惯研究随机变量的取值等于或大于某个值的概率,表示为:,它是x的函数,称作随机变量X 的分布函数,记作F(x), 即 F(x)=P(Xx) 表示随机变量X 大于或等于值 x 的概率,其几何曲线称作随机变量的概率分布曲线(水文学上通常称累计频率曲线,简称频率曲线)。, 对于连续型随机变量:,由图中可知,X=900,相应的P(X x)=0.15,说明大于900mm降雨的可能性为15%;同理,大于500 mm 降雨的可能性为60%,P(X x)=P(X x
7、+x)+P(x+ x X x) P(x+ x X x)= P(X x)-P(X x+x) =F(x)-F(x+ x) (8-1),由概率的加法定理:,则,降雨量落在900和500mm的可能性为: 60%-15% = 45%,随机变量X落在(x ,x+ x) 的概率可用下式表示:, 平均概率密度:,随机变量落在区间(x, x+x)的概率与该区间长度的比值 称作随机变量落在区间(x, x+x)平均概率。,概率密度函数:,称 f(x)为概率密度函数,简称密度函数。而密度函数的几何曲线称作密度曲线。,当 x 0,取极限得:,通过密度函数f(x)可求出随机变量X落在(x x+dx)区间即dx上的概率=
8、f(x)dx,称之为概率元素,即为图中的阴影面积;通过密度函数f(x)可求出随机变量 X 概率分布函数F(x),其与密度函数f(x) 有如下的数学关系:, F(x) 分布函数,反映随机变量X超过某个值 x 的概率。 这两个函数能完整地描述随机变量的分布规律。, f(x) 密度函数,反映随机变量X落入dx 区间的平均概率;,可见,随机变量的二个函数:,在实际问题中,随机变量的分布函数不易确定,或有时不一定需要用完整的形式来说明随机变量,而只要知道其主要特征就可以。随机变量的分布函数和密度函数中都包含一些参数(如均值、变差系数、偏态系数),而这些参数能反映随机变量分布的特点:如有的分布集中,有的分
9、布分散,有的分布对称,有的分布非对称,等等。在统计学中用以表示随机变量这些分布特征的某些数值,称之为随机变量统计参数。,3.随机变量统计参数, 平均数 / 数学期望,离散型随机变量的平均数是以概率为权重的加权平均值。,a. 反映位置特征参数, 对于离散型随机变量:,式中,a、b 分别为随机变量 X 取值的上下限。 数学期望或平均数代表整个随机变量的总水平的高低,它为分布的中心。, 对于连续的随机变量:,表示概率密度分布峰点所对应的数。对于离散型随机变量: M0(x) 是使概率 P ( =xi )等于 最大时所相应的 x i值。, 众数,记为M0(x),M0 (x)是概率密度函数f (x)等于最
10、大时所对应的 xi 值,对于连续型随机变量:,把概率密度分布分为二个相等部分的数。 对于离散型的随机变量: 将所有变量的可能取值按大小次序排列,位置居中的数字。, 中位数 ,记为Me(x), 对于连续的随机变量中位数满足:,式中, a, b 分别为随机变量 X 取值的上下限,该参数用以反映随机变量分布离散程度(相对于随机变量分布中心即平均值的差距)的指标,通常有以下几种:,b. 反映离散特征参数, 值愈大,分布愈分散; 值愈小,分布愈集中。, 标准差(均方差) (Standard deviation),(8-6), 变差系数(离差系数,离势系数,CV值愈大,分布愈分散;CV 值愈小,分布愈集中
11、。,对于均值不同的二个系列,用均方差来比较其离散程度就不合适,则要采用均方差和均值的比来表示:,若不对称: CS 0 , 称为正偏;,CS 0 , 称为负偏。,c. 反映对称特征的参数:, 偏态系数(偏差系数),4.2.水文中常用的概率分布曲线,1.正态分布,(8-9),式中, :平均数; :标准差。,许多随机变量如水文测量误差、抽样误差等一般服从正态分布。,f (x),a. 单峰,只有一个众数; b. 对于平均数对称, Cs= 0; c. 曲线二端趋于 , 并以x 轴为渐近线; d.,正态分布曲线的特点:,概率密度函数表达式:,2.皮尔逊 型分布,式中, () 的伽玛函数, , , a 0:
12、三个参数,它们与三个统计参数有一定的关系,其表达式为:,可见,当以上三个参数确定后,P-III型密度函数亦完全确定。,P-III型曲线的特点:一端有限另一端无限的不对称单峰正偏曲线,在水文计算中,一般要求出指定概率 P 所相应的随机变量的取值 xP,即求出的 xP满足下列等式:,按上式计算相当复杂,故实用中,采用标准化变换: 取标准变量(离均系数) , 即 代入上式,, , a0以相应的 和 关系式表示,简化后得:,被积函数含有参数 , Cs ,而 包含在 中,制成 对应关系表:,因此,由给定的CS 及P,从P-III型曲线离均系数 值表,查出P ,再由下式求:,即求出指定概率 P 所相应的随
13、机变量的取值 xP,已知: 某地年平均降雨量 =1000 mm, CV =0.5, CS =1.0,若年降雨量符合P - III型分布试求:P=1% 的年降雨量。,【算例】,求解:由 CS =1.0及P =1%,查附表1得p = 3.02,引入模比系数:,另一种求解方法:,由,由此建立 的 对应数值关系P-III型曲线模比系数 KP 值表(见附表2),上例的解法:由 CV = 0.5, CS = 1.0=2 CV ,P = 1%查附表2得:,P-III型曲线模比系数 KP 值表(附表2, P266),水文随机变量的总体是无限的,这就需要在总体不知道的情况下,靠抽出的样本(观测的系列)去估计总体
14、参数。,4.3.随机变量系列统计参数的估计,估算方法有: 矩法; 适线法; 极大似然法; 权函数法; ,现行水文频率计算方法配线法(适线法),是以经验频率点据为基础,在一定的适线准则下,求解与经验点据拟合最优的频率曲线参数,这是一种较好的参数估计方法,是我国估计洪水频率曲线统计参数的主要方法。,有关的概念介绍:,1) 经验频率及经验频率曲线:,【例】已知某地年降雨量的观测资料(n=12),并由大 到小排列,按 计算频率。式中,P:大于或等于某一变量值 x 的经验频率; m:x 由大到小排列的序号,即在n 次观测资料中出现大于或等于某一值 x 的次数。,经验频率计算表:,n =12,其反映年降雨
15、量(Xx)的经验频率P(Xx)和x的关系。随着样本容量n的增加,频率P就非常接近于概率,而该经验分布曲线就非常接近于总体的分布曲线。,由此得到经验分布曲线:,注意:样本的每一项的经验频率用公式P=m/n进行计算,当m=n时,P=100%,说明样本的最末项为总体的最小值,这是不合理的。故必须进行修正,中国常采用下面的公式进行计算:,经验频率的计算公式:,这样,当m=n=12 时,,该公式在水文计算中通常称为期望公式,所谓的重现期是指某一随机事件在很长时期内平均多长时间出现一次(水文学中常称为“多少年一遇”)。即在许多试验中,某一随机事件重复出现的时间间隔的平均数,即平均的重现间隔期。在水文分析中
16、,重现期可以等效地替代频率。,2) 重现期,a.当研究洪水或暴雨问题 水文上关心的是大于某洪水或某暴雨量发生的频率,因此,重现期指在很长时期N年内,出现大于某水文变量XP 事件的平均重现的间隔期T :,式中, T:重现期,以年计; P:大于某水文变量 XP 事件的频率,,频率P与重现期T关系的两种表示法:,水文上关心的是小于xP的事件出现的频率及相应的重现期。 重现期指在很长的时期内(N年)出现小于某水文变量xP事件的平均重现间隔期。若水文变量大于xP的频率为P ,则小于xP事件的频率应为1-P,在N年内小于xP事件出现的次数应为N(1-P),因此其重现期为:,b. 当研究枯水问题,具体求解步
17、骤:a 根据实测样本资料进行点绘纵坐标为随机变量X=x,横坐标为对应的经验频率P(X x),经验频率计算公式为:,b 假定一组参数 ,可选用矩法的估值作为 的初始值,一般不求CS,假定 ,K为比例系数,可选 K1.5, 2, 2.5, 3.,3) 适线法(配线法)的步骤,已知:经验频率分布, 求:总体分布参数,d 根据选定的参数 ,由P-III型曲线离均系数值(附表1)或P-III型曲线模比系数KP 值表(附表2),求出 xP P 的频率曲线,将其绘在有经验点据的同一张图上,看它们的配合好坏,若不理想,则修改有关的参数(主要调整CV 及K=CS /CV ),重复以上的步骤,重新配线;,c 选定
18、线型,对于水文的随机变量,一般选P-III型;,e 根据配合的情况,选出一配合最佳的频率曲线作为采用曲线,则相应的参数作为总体参数的估值。, 适线法的实质是通过样本经验分布来推求总体分布,适线法的关键在于“最佳配合”的判别。,为避免修改参数的盲目性,要了解参数 对频率曲线形状的影响:,a) 值愈大,频率曲线位置愈高;,c) CS 值愈大,频率曲线上段变陡,下段变缓,中部向左偏。,b) CV 值愈大,频率曲线愈陡;,6.5.1 相关关系的概念 水文现象中许多变量不是孤立的,相互之间存在联系,则分析研究二个或二个以上随机变量之间的关系,称作相关关系。,6.5 相关分析,如果两个变量x, y,其中变
19、量x 的每一个值,变量y 都有一个或多个确定值与之对应,而且x, y成函数关系,即x, y的关系点完全落在直线或曲线上, 则称这二个变量是完全相关的。,完全相关(函数关系,二个随机变量之间的关系有以下三种情况:,b. 零相关 (没有关系),如果两个变量x, y之间互不影响互不相关,则称这二个变量没有关系或零相关。 即x, y的关系点毫无规律,十分分散。,如果两个变量x, y之间关系介于以上二者之间,x, y的关系点虽有点分散,但有明显的趋势,数学上可以用一定的表达式进行拟合。则称这二个变量关系为: 统计相关或相关关系。,统计相关,c. 统计相关(相关关系,a. 确定二个变量间相关关系的数学表达
20、式,以相关方程或回归方程表示,用以由已知变量推求未知变量; b. 判断二个变量间相关关系的密切程度,用一称为相关系数的参数来表示。,水文计算中的相关分析的主要任务:,水文计算中,一般处理两个变量间的相关关系,称简相关,有时也要处理三个或三个以上变量关系,称为复相关。简相关可分为直线相关和曲线相关。,6.5.2 简相关, 图解法:根据实测值,将对应点绘于方格纸上,如果点群分布平均趋势为一直线,则可以直线来近似代表这种相关关系。通过点群中心目估绘出一条直线,然后在图上量出直线的斜率a和截距b,则直线方程: y=a+bx即为所求的相关方程。该方法简便实用,而且一般情况下精度可以保证。,1) 回归方程
21、及其误差分析, 相关分析法:,若相关点分布较散,目估定线有一定任意性,为保证一定精确性,最好采用分析法来确定相关线的方程。设该直线方程形式为: y = a+bx式中,x:自变量 y :倚变量 a, b :分别为一常数,待定。 则相关点与直线在纵轴方向必然存在离差。,配合曲线与观测点在纵轴方向的离差为:,要求配合曲线与所有的观测点能“最佳”拟合,即满足所有的观测点的离差y 的平方和为最小,即:,分别对 a, b 求一阶偏导数,并令其为零:,求解上列两联立方程式,可得,式中, :分别为x, y 系列的均方差/标准差; :分别为x, y 系列的平均值; :x, y 系列的变差系数(按不偏估计公式计算
22、):, :相关系数; Kxi ,Kyi:分别为xi , yi系列的模比系数:,为回归线的斜率,称 y 为 x 倚的回归系数,(8-37)式即为y 倚x 的回归方程,其曲线称为回归线/相关线(仅是对点据拟合最佳一条线),亦可表示为:,将 , 代入y = a+bx中得:,注意:,由于x, y并非确定性关系,对于x=x0,无法知道其相应的真正值y0 ,通过回归方程求到: 仅仅是真正值y0的一个估计值。故其与真正值y0存在偏差。根据统计学的研究,由于随机因素的影响, y0在估计值 上下波动呈正态分布,其均方误差可用公式表示。,式中,Sy :y倚x回归线的均方误; yi :观测点的纵坐标值; y:由回归
23、方程求到的纵坐标值;n:观测项的数目,y倚x回归线的均方误估算公式:,如前所述,可以用均方误进行误差分析,即对于任一固定的x=x0值,若以 作为y 的估值,其误差不超过Sy的可能性为68.3%;其误差不超过3Sy的可能性为99.7%。,另外,可以证明回归线的均方误与系列标准差及相关系数 有以下关系:,式中, 为y系列的标准差(无偏估计量),根据均方误公式,也可以用 2来判断相关程度 :, 若 2 = 1,Sy = 0,则 y = yi ,属函数关系; 若 2 = 0,Sy = y ,误差最大,属零相关; 若 0 2 1,为统计相关, 2 1, x, y 关系愈密切。,可知,均方误Sy值愈大,则
24、回归方程的误差愈大 。,相关系数的均方误可用下式来估算:,式中, 为相关系数; n 为观测项数。,相关系数是根据有限的实测资料(样本)计算出来的,故相关系数也不免带有抽样误差,故水文上为了推断二个变量的相关性,必须对样本相关系数作统计检验。,相关系数的均方误:,相关系数的统计检验的思路 - 反证法: 检验二个变量是否相关,先假定二个变量不相关,由此如果导致“不合理的现象”发生,则表明原先的假定不成立,拒绝“不相关”的假定,如果没有导致“不合理现象”发生,则原假定成立,称原假定是相容的。 这里所谓的“不合理”不是指形式逻辑上的绝对矛盾,而是基于实践中广泛采用的一个原则: 小概率事件在一次观测中是
25、不可能发生的。,相关系数的统计检验:,具体的检验步骤: 假设两变量X,Y 在总体上不相关; 从不相关的两变量总体中抽出大量的样本(如n个),进行相关分析,并分别计算各样本的相关系数1, 2,n,由于假设总体不相关,可以判断1, 2,n, 为较小值的可能性大,而较大值的可能性小,其概率分布密度曲线 f(r) r 如右图所示:, 选定一个衡量事件发生可能性(概率)很小的指标(水文统计学中称显著性水平 ),对于容量为n的样本,则有一相应的临界值(为较大值),样本相关系数(根据原先假定 应为很小的值) 超过的可能性(概率)应为较小值(水文上一般选 =0.05 或 0.01作为小概率),即:,由于 值很
26、小,故 为一小概率事件., 取某一个具体的样本所计算的 与作比较,以判断总体是否相关: 若 ,说明样本相关系数绝对值较大,且超过了临界值,说明“小概率事件”发生了,则原先的假定是不能接受的,总体很大可能性是相关的。 若 ,说明样本相关系数绝对值较小,未超过临界值,则原先的假定可以成立,即总体很大可能性是不相关的。,实用上,可查n (表8-7 ,p158)求,不同显著性水平下所需相关系数最低值,则上式可写成: - 直线关系,故可按直线相关的方法求Y与X的回归方程,再还原成 y 与 x 的函数关系。,6.5.3 曲线相关,1) 幂函数,方程二边取对数:,令:,故可按直线相关的方法求 Y 倚 X 的回归方程,再还原成 y 与 x 的函数关系,则上式可写成 - 直线关系,2) 指数函数,方程二边取对数:,令,End!,