分享
分享赚钱 收藏 举报 版权申诉 / 70

类型管理系统模拟4.ppt

  • 上传人:dcs1276
  • 文档编号:9659529
  • 上传时间:2019-08-21
  • 格式:PPT
  • 页数:70
  • 大小:678KB
  • 配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    管理系统模拟4.ppt
    资源描述:

    1、1,4 输入数据建模 4.1 建立输入数据模型的方法,建立输入数据模型可以采用如下三种方法之一: (1)在仿真运行中直接使用收集到的数据 (2)把收集到的数据定义为经验分布 (3)将数据拟合为某种理论分布,2,输入数据建模,原始数据,原始数据,经验分布,理论分布,处理,确定数值范围,计算频率,预处理,分布类型辨识,参数估计,拟合度检验,输入数据模型,直接使用,3,(1)在仿真运行中直接使用收集到的数据,该方法很直接,也可以用来做确定性模型的有效性检验,但是有两个缺点: (1)只能用收集到的历史数据来驱动仿真模型; (2)经常没用足够多的数据来进行多次仿真试验。,4,(2)把收集到的数据定义为经

    2、验分布,该方法可以根据实际数据值的范围、某个数据值出现的频率,用随机数来产生所需要的随机变量值,能够产生足够多的数据来进行多次仿真试验。,5,(3)将数据拟合为某种理论分布,如果发现所收集的数据能够较好地服从某种理论分布(Theoretical Distribution),倾向于采用第 3种方法而不是第2种方法。 建立输入数据理论分布的几个主要步骤 收集原始数据 基本统计分布的辨识 参数估计以 拟合度检验,6,4.2 收集原始数据,一、收集输入数据的方法 ()通过实际观测获得系统的输入数据。 ()由项目管理人员提供的实际系统运行数据。 ()从已经发表的研究成果、论文中收集类似系统的输入数据模型

    3、。 二、收集数据时,要注意以下几点: ()在收集数据的同时就分析数据,确定收集到的数据是否足够。 ()将性质相同的数据集组合在一起。 ()确定两个随机变量是否相关。 ()注意一组观测到的、似乎是独立的样本是否具有自相关性。,7,4.3 随机变量分布的辨识,连续型随机变量分布类型辨识离散型随机变量分布类型辨识,8,4.3.1 连续型随机变量分布类型辨识,(1)点统计法 点统计法确定连续随机变量分布类型的基本思路为,首先计算连续型随机变量的偏差系数,再根据偏差系数的特征寻求与其相近的理论分布,并假设随机变量的分布为这一理论分布。偏差系数是偏差与均值的比:,其中: var(x)随机变量分布的方差;

    4、E(x)均值。,9,如果有随机变量X,则有:其中:随机变量采集数据的均值;s2(n) 随机变量采集数据的方差。,所以,,10,11,点统计法 例41: 用汽车到达银行的时间间隔原始数据,接近1,假设间隔服从指数分布。,12,(2)直方图法,直方图是一种图形估计方法。 基本原理是:用观测到的样本数值建立随机变量的概率密度函数分布的直方图,然后把得到的直方图与理论分布的概率密度函数曲线图形做对比,从图形上直观地判断被观测随机变量是否满足某种理论分布。,13,具体做法:,1)将所有观测数值分为k个区间长度相等的相邻区间。bj-1,bj),j=1,2,k。 区间宽度b=bjbj-1 2)对于第i个区间

    5、bj-1,bj),令gj表示在第j个区间中的观测数据数量nj占整个观测数据的比例,即gj= njn。 3)定义函数,,4)将定义的观测数据取值的区间画在横坐标轴上,在垂直坐标轴上标记出频率函数,画出被观测变量的直方图。 5)将直方图与理论分布的概率密度函数对比,确定被观测数据服从哪种理论分布。,14,x1 x2 xa xa+1 xb xb+1 xc xi+1 xm Xm+1 xn,15,例42:1)首先确定观测数据的范围在观测到的间隔时间数据中,最小间隔是0.01min,最大间隔是1.96min,观测数值范围为0.0,2.0。 2)确定相邻区间宽度为b=0.1,b0=0,b20=2.0,构造出

    6、20个长度相等的相邻区间。,16,3)统计第j个区间所包括的观测数据数目占所有观测数据数目的比例gj,下表中列出了具体数值。,17,4)根据上表给出函数h(X)。 5)将连续的区间在横轴上表出,将函数h(x)的数值在纵轴上表出,画出直方图。,6)将直方图与理论分布的概率密度函数曲线做比较。,从图形上看,间隔符合服从指数分布。,18,要注意选择区间宽度,19,20,4.3.2 离散型随机变量分布类型的辨识,(1)点统计法与连续型随机变量点统计法方法相同,同样是采用计算偏差系数的方法,寻找偏差系数相近的理论分布进行假设。,21,(2)线图法,线图法是把采集到的数据与假设的理论分布的概率质量函数曲线

    7、进行比较。如果找到相近的,则可以假设其为该理论分布。 具体做法步骤如下: 设观察数据为:x1,x2,xn; 将其按递增顺序排列,设共有 m个取值(mn),分别为:x(1),x(2),x(m); x(i)的数据个数占整个观测数据个数的比例数为hi; 以x(i)作为自变量,以hi的值为函数值,即:hi=f(x(i)),i=1,2,m; 由函数值 hi向相应的自变量 X(i)做垂线所得的图形称为线图(见下图 ); 与假设的理论分布的概率质量函数比较,确定随机变量的分布。,22,23,例:观测在7:00am7:05am时间段内到达某十字路口西北拐角的车辆数目。每周观测 5天,连续观测 20周,在 5分

    8、钟内到达的车辆数目列表 45中。,24,25,4.4 参数估计,用直方图或线图确定样本数据服从的理论分布之后,还要根据已经观察到的样本计算出理论分布的参数。如果可以确定理论分布的参数,我们就建立了输入参数的一个数学模型,可以用前面(第三章)介绍的方法来生成随机变量的数值。,26,按照统计学的说法,假设某随机变量的总体分布是F,分布F的参数未知,要用已经观测到的部分样本来计算全部样本总体分布F的参数的真值,这样的统计推断问题被称为估计(Estimation)。 在数理统计学中有许多参数估计的方法。点估计:如果用统计方法给出的结果是关于参数真值的一个点,称为点估计(Point Estimation

    9、);区间估计:如果给出参数真值存在的一个区间,称为区间估计(Interval Estimation)。,27,点估计,(1) 样本均值,样本均值是随机变量X期望值E(X)的一个点估计 ,刻画了随机变量的一个特征,即随机变量倾向于某个数值,,(2) 样本方差,样本的方差越大,说明样本与均值的偏离越大,即样本数值的分散性大;反之,样本的方差越小,说明样本数值的集中程度比较高。,28,29,例:用汽车到达银行的时间间隔原始数据,即:,30,例:用车辆数目数据,即:,31,4.5 拟合度检验,通过做辨识和参数估计,可以估计出观测样本的分布及其参数。在得到了这个估计的理论分布及其参数之后,需要判断观测样

    10、本分布与估计的理论分布的接近程度,即确定估计的理论分布的拟合度。比较直观的方法之一是直接把直方图与所估计理论分布的概率密度函数曲线做对比。假设所估计理论分布的概率密度函数为 ,对于连续型随机变量,比较的具体方法是:把直方图与b 曲线画在一起。,32,例:我们估计汽车银行顾客到达时间间隔服从=2. 506的指数分布,将直方图与概率密度曲线做对比。 拟合样本数据得到顾客到达间隔时间的概率密度函数,,直方图与,画在一起:,33,34,拟合度检验的定量方法:2检验(ChiSquare Test)KolmogorovSmirnov检验(柯尔莫哥洛夫斯米尔诺夫检验、KS检验),35,4.5.12 检验(C

    11、hiSquare Test),2 检验以下假设是否成立。H0:随机变量X满足假定的分布;如果H0假设被接受,那么被检验的随机变量就满足所假定的分布; 如果H0假设被拒绝,则被检验的随机变量不满足所假定的分布。,36,2 检验的方法: (1)将n个观测样本按数值大小分到k个相邻区间aj-1,aj)(j=1,2,k)中,按照公式计算2 统计量。,其中 Nj为在第 j个区间中的观测样本数,pj为按照假设的分布确定的样本在该区间中出现的概率。,对于连续型变量,,对于离散型随机变量,,是所假设的分布的概率密度函数,,是所假设的分布的概率质量函数。,37,(2) 2服从ks1自由度的ChiSquare分布

    12、。k为所划分区间的数目,s为所假定的分布的参数数目。,如果,则H0假设被拒绝。 是显著水平,相应的(1一)100就是置信度。,38,不要求k个相邻区间的宽度都相等。 对于离散型随机变量,区间的数量由观测样本的取值数目确定; 对于连续型随机变量,区间数量采用表4.8中的推荐值。,39,例46:在5分钟内到达十字路口西南拐角的车辆数目被假设为服从泊松分布,通过参数拟合得到3.64。在显著水平0.05时,用2测试检验在5分钟内到达十字路口西南拐角的车辆数目是否服从所假设的泊松分布。 离散泊松分布的概率质量函数为,,40,表49是按照离散泊松分布的概率密度函数计算出的整数X取值011时的概率质量。,将

    13、总共100个样本值分为7个相邻的区间,再根据离散泊松分布的概率密度质量计算出,如果满足所假定的泊松分布,在每个取值区间内应该出现的样本数目npi;。pi为所假设的泊松分布取第i个区间中的数值的概率质量,n为全部样本的数目。检测统计量的计算过程在表410中列出。,41,统计量,显著水平取为0.05。 泊松分布有一个参数,则上分布的自由度为,k-S-1=7-1-1=5 查表可得关键值,,因此在显著水平取0.05,H0假设被拒绝,即样本数据不服从所假定的泊松分布。,42,在计算2统计量时,Ni是分段区间中所包含的样本数量,换算成占全部样本的比例就可以得到直方图。pi则是所假设的理论分布的数值出现在分

    14、段区间内的概率,代表了概率密度函数或概率质量。2 统计量可以被理解为直方图与概率密度函数曲线或线图与概率质量函数曲线偏差曲线的偏差量, 2 测试则是定量化的直方图与概率密度或线图与概率质量函数曲线对比方法。 采用2测试需要确定分段区间,如何确定分段区间没有严格的规则,区间数量不同对统计量有比较大的影响。对于同一组样本,在选择某个区间数量时,得到了样本不服从所假设分布的结论;选择另外的区间数目,则可能得出样本服从所假设分布的结论。 另外,当样本数量比较少的时候,不能采用2测试。,43,4.5.2 KolmogorovSmirnov 检验,KS检验是把经验分布函数与所假设分布的分布函数做比较。使用

    15、KS检验不用确定分段区间,对样本数量也没有限制。,44,KS检验步骤 假设观测到一组样本X1,X2,Xn,进行KS测试的步骤如下: (1)定义样本的经验分布函数Fn(X)。,Fn(x)是数值小于等于X的观测样本占全部样本数目的比例(2)计算KS统计量Dn。,Dn是经验分布函数Fn(x)与所假设的分布函数,的最大偏差值。,45,将观测值按照递增的顺序排列X(1)X(2)X(n),分别计算,,统计量Dn的值越大,经验分布函数与所假设的分布函数的偏差越大。 (3)判断样本是否服从所假设的分布。根据将统计量与一定显著水平下的关键值dn,比较,如果Dndn,,则H0假设被接受,样本服从所假设的分布;否则

    16、,H0假设被拒绝,样本不服从假设的分布。,46,K检验临界值表,47,例4.7:在100分钟时间内观测到了50个顾客到达的间隔时间,单位分钟。按照顾客到达的先后顺序,时间间隔如下:,用KS测试检验间隔时间是否满足指数分布?,48,顾客到达的间隔时间是在(0,100)时间区间上收集到的,如果间隔时间服从指数分布,那么顾客到达时间在(0,100)时间区间上是均匀分布的。为了方便起见,把顾客到达时间规一化到(0,1)区间上。规一化后的到达时间如下:,49,经验分布函数与(0,1)均匀分布偏差的计算过程列在表411中。,从表 411可以得到,,所以 KS统计量,50,统计量D的关键值可以查表得到,取显

    17、著水平a0.05,当n=50时,,统计量D比关键值小,所以检验结果表明间隔时间服从指数分布。,最初的KS测试只能应用于所假设分布的参数全部已知的场合,不能使用参数估计所给出的参数。改进后的KS测试可以使用从样本得到的参数,有关详细内容参见相关书籍。 虽然KS测试有它的优势,但与2测试相比它的应用范围比较小。,51,例:,某随机数发生器产生出 5个随机数,ui0.44,0.81,0.14,0.05,0.93,要求显著性水平为=0.05。用KS检验是否符合均匀分布。,52,首先将所产生的随机数由小到大排列,并进行检验步骤中的各项计算,如下表所示:,由表可见 D+0.26,D0.21,故Dmax(0

    18、.26,0.21)0.26。 当 0.05和N5时,由表 3-1可知D的临界值 D5,0.950.565。 由于DD5,0.95,故不能拒绝所产生的随机数的分布与理论均匀分布之间无显著差异的假设。,53,SN(X)和F(x)的比较,0.05 0.14 0.44 0.81 0.93,54,思考:,已知有如下随机数:53,47,42,46,47,51,51,59,47,51 (1)对其做理论分布假设并检验。 (提示及要求:第1步:用偏差判断属于哪种概率密度函数的分布; 第2步:做直方图,从图形上判断属于哪种概率密度函数的分布; 第3步:用第一步计算的参数和第二步得到的直方图的结论,做一条理论分布曲

    19、线与直方图相拟合或用卡方检验、KS检验。) (2)有人认为符合泊松分布,你认为对吗,说明理由。,55,4.7 经验分布,当无法用理论分布来拟合输入数据或者不需要采用理论分布的时候,我们直接用观测到的数据及每个数据占全部数据的比例来定义一个分布,这种分布被称为经验分布(Empirical Distribution)。 经验分布具有离散和连续两种类型。,56,4.7.1 离散型变量的经验分布,假定观测到的样本数据为X1 ,X 2 ,Xn ,建立离散数据经验分布的步骤如下。 (1)计算样本数值的相对频率。n个样本共有k个取值,按照递增的顺序排列X (1)X (2) X (n)(kn)。对于每样本值X

    20、 (j),p (j)是数值为X (j)的样本的数目占全部观测样本的比例,称为相对频率。 (2)将样本值X (j)及其对应的相对频率p (j)列表,或做相对频率的直方图,57,例:对中午到餐厅就餐的顾客进行观察,发现每批顾客的入数在18之间。需要确定每批顾客数目的数据模型。观测了最近的300批顾客,每批顾客数目及其相应的出现次数在下表中列出。,58,在图4.9中给出的每批顾客数目的累计频率曲线代表了样本的经验分布,59,批量到达过程,是系统仿真中经常遇到的一种到达模式,如一批多个工件同时进入加工系统、一批多个顾客同时到达餐厅、一个订单中包括多种商品等。我们首先要确定各批次之间的间隔时间服从哪种分

    21、布,通常是指数分布。然后,再来建立每个批次的顾客数量模型。 设N(t)是到在时刻为止,已经到达的顾客批次数目。我们可以建立到达过程N(t),t0的模型。如果Bi是第i个批次中的顾客数目,X(t)是到t时刻为止已经到达的顾客数目。,假定B满足独立同分布,而且独立于到达过程N(t),t0,那么 X(t),t0是一个复合过程。,60,例:,61,4.7.2 连续型变量的经验分布,对于连续型变量,不定义概率密度函数,而直接用累计频率定义分布函数。 在定义的经验分布的时候,需要考虑两种情况: 能够得到原始的全部观测数据; 只能得到变量数值落在若干区间内的次数。,62, 能够得到原始的全部观测数据,假设得

    22、到了全部样本X1 ,X2,Xn,可以得到分段线性的分布函数。定义分布函数的步骤如下。 (1)将观测到的样本按照数值增大的顺序排列,设X (i)为第i个最小的数据值,即X (1)X (2),X (n) (2)按照下列公式计算分布函数F(x),,63,例:,64, 只能得到变量数值落在若干区间内的次数,不知道原始的样本数值是多少,但是知道样本总数为n,样本按照k个相邻区间(a0,al,(a1,a2,(ak-1,a k,分成k组。落在第j个区间内的样本数量为nj,,按照以下步骤定义分段线性的经验分布函数G。(1)定义经验分布函数G在区间分界点上的数值。,65,(2)进行线性插值,计算在每个区间内的分

    23、布函数。,66,例:输送带系统出现故障时需要用一段时间进行维修,共收集到了100个维修时间。如表4.14所示,维修时间以半小时为间隔分为6个相邻区间。建立维修时间的模型。,根据区间的变界值,a00.0,a63.0。在区间分界点上的分布函数值为:G(0)0,G(0.5)0.21,G(1.0)0.33,G(1.5)=0.62,G(2.0)0.81,G(2.5)0.89,G(3.0)1.00。,67,产生随机数为0.83,则维修时间为多少?,G(x)0.83 G(2.0)0.81, G(2.5)0.89, 由公式:,0.830.81(x-2.0)(0.89-0.81)/(2.5-2.0) 解得:X=2.125,68,69,经验分布产生的随机变量取值只能在样本的最小值和最大值之间。如果得到的样本数目比较少,由于无法生成比样本最大值更大的数字,影响了经验分布的可靠性。,70,本章要求通过例子熟练掌握、加深理解输入建模的方法,

    展开阅读全文
    提示  道客多多所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:管理系统模拟4.ppt
    链接地址:https://www.docduoduo.com/p-9659529.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    道客多多用户QQ群:832276834  微博官方号:道客多多官方   知乎号:道客多多

    Copyright© 2025 道客多多 docduoduo.com 网站版权所有世界地图

    经营许可证编号:粤ICP备2021046453号    营业执照商标

    1.png 2.png 3.png 4.png 5.png 6.png 7.png 8.png 9.png 10.png



    收起
    展开