输入建模2.ppt-道客多多_道客多多docduoduo.com

资源描述

1、输入建模,汪云峰博士管理科学与工程系,输入模型提供了仿真的驱动力输出的质量不会比输入的高输入建模的四个步骤：收集和检验数据选择一个合适的分布为该分布确定参数评价所选择的分布和参数,2,为何要检验数据？,许多用于拟合分布的统计技术都假定数据是独立且同分布的（IID, Independent and Identically Distribution）。,3,如何检验数据？,独立性检验（随机性检验）：样本数据之间是否相互影响。同质性检验：数据是否服从同一分布。 K-W假设检验（Law & Kelton, 6.13）不同日期收集到的银行服务时间数据同一个机场中收集到的来自不同城

2、市的航班到达时间数据不同型号机床的加工时间数据平稳性检验：数据的分布参数是否随时间变化而变化。参见拟合非平稳泊松过程。,4,选择分布簇,以分布的物理基础为指导固定长度时间或固定大小空间内发生的独立事件次数，如在1小时内到达商店的顾客人数，在30平方米金属板上发现的缺陷数。泊松分布部件的故障时间，如硬盘驱动器的故障时间。韦布尔分布许多子过程之和的过程，如产品的组装过程是每个组装操作时间之和。正态分布过程的值在本质上是离散的还是连续的？过程有边界吗？参考stat：fit的Guide to Distribution Choice,5,选择分布簇,对于任何随机输入过程没完全准确的

3、分布。目标：获得好的近似，经常是填补空缺或平滑数据。观察直方图等图形工具各种统计量都是综合性的信息表达，不能代替直方图之类的工具，它们能够表达发生未拟合的位置。,6,如何确定区间的数量？,区间的数量决定于观测值的数量数据的分散程度建议：样本尺寸的平方根如果数据的数量较少，合并相邻单元来消除毛刺。,7,直方图,汽车到达：在100个随机工作日的上午7点至7点5分到达的车辆数量在有大量数据的情况下，在直方图中每一个可能的值都对应一个区间。,8,参数估计,在选择分布簇后的下一个步骤。如果观察到尺寸为n的样本是X1, X2, , Xn （离散或者连续），样本的均值和方差为：如果数据离散的，且

4、被分组到一个频度分布中（fj 是Xj的观测频度）：,9,参数估计,对于连续的值，使用原始数据是更好的选择。但如果数据被放入分组区间，近似的样本均值和方差为：其中，fj 是第j个分组区间的观测频率， mj是第j个区间的中点， c是区间的个数。参数是未知的常数，但是估计量是一个统计值。,10,参数估计,车辆到达样本均值与方差为：直方图显示X具有泊松分布然而，样本均值并不等于样本方差。（泊松分布最重要的性质）每一个估计量都是随机变量，并不完美。,11,拟合优度测试,输入数据分布的假设检验： 2检验比较数据的直方图与备选分布的概率密度或概率质量函数。对于用极大似然估计参数的大样本有效 Kol

5、mogorov-Smirnov 检验比较累积分布函数样本容量小，不需要从数据中估计参数时尤其有效。 Anderson-Darling检验比较累积分布函数在分布的尾部对差别更为敏感。在实际应用中不存在唯一正确的分布如果没有足够数据可用，它不可能拒绝任何备选分布。如果有大量数据可用，它可能会拒绝所有的备选分布。,12,p值与最佳拟合,检验统计量的p值显著水平是错误拒绝H0（拒真）的概率。检验时并不需要预先指定显著水平，自然有一个客观存在的极限值。对于给定检验统计量值，找到刚好拒绝H0的显著水平（即为p值）。拟合效果的度量，p越大越好。接受一个分布时，最怕纳伪。 p值越大，拒

6、真的可能性越大，纳伪的可能性越小。 H0强壮性高，更有信心接受。,13,车辆到达： H0:数据服从泊松分布检验统计量： p值= 0.00004，在0.00004的显著水平下拒绝 H0 ，具有非常高的纳伪可能性，因此泊松分布是一个坏的拟合。,14,p值与最佳拟合,许多软件根据p值来对拟合的结果进行排序，以自动决定最好的拟合结果。但要注意：软件并不知道数据的现实背景，其所建议的分布也许并不合适。对数据的紧密符合并不总能得到最适当的输入模型。 p值并不指出拟合不佳的位置。建议：始终运用图形方法来检查自动选择的结果。,15,拟合非平稳泊松过程,拟合非平稳泊松到达过程是非常困难的，可能的方式有：

7、拟合一个具有大量参数的高度灵活的模型；在一些基本的时间段内采用近似的常数到达率，在不同的时间段中则对该常数进行调整。如果我们需要对时间0,T的到达过程建模，采取后一种方法最适宜的情况是：能够重复观察这一时间段；对到达进行计数。,16,拟合非平稳泊松过程,在第i个时间段内估计的到达率：其中n为观察周期数，Dt为时间区间长度，Cij为在第j个观察周期中在第i个时间区间内观察到的到达数量。,17,拟合非平稳泊松过程,将10小时的工作时间 8am,6pm分为20个相等的间隔，Dt = ，观察3天。参数类似的时间段可以考虑合并，如8:30至9:30。拟合优度检验可以单独用于每个时间区间的数据。

8、,18,(23+26+32)/(3*0.5) = 54 arrivals/hour,多变量与时间序列输入模型,多变量考虑库存模型中的提前期和年需求，增加需求通常导致提前期延长，可见变量之间相互依赖。时间序列考虑在连续到达的买卖股票的时间间隔，买和卖倾向于集中到达，因此在到达时间间隔也是相关的。,19,多变量输入模型,20,令X1表示年平均提前期，X2表示年需求量。 1、1、2、2分别代表两个变量的均值和标准差。由标准计算得到相关系数为=0.86 拟用双正态随机变量来建模提前期和需求量：步骤1 生成独立的标准正态分布随机变量Z1和Z2 步骤2 取X1=1+1Z1 步骤3 取X2=2+2

9、(Z1+(1-2)1/2Z2),时间序列输入模型,顾客买单和卖单的20个时间间隔（秒）： 1.95 1.75 1.58 1.42 1.28 1.15 1.04 0.93 0.84 0.75 0.68 0.61 11.98 10.79 9.71 14.02 12.62 11.36 10.22 9.20由标准计算得均值为5.2，方差为26.7,滞后为1的自相关系数1=0.8。生成一个平稳的指数自回归一阶模型（EAR(1)）: 步骤1 由均值为5.2的指数分布生成随机变量X1，取t=2。步骤2 由0,1上的均匀分布生成随机变量U。若U 1，则令Xt= 1 Xt-1。否则由步骤1中的指数分布生成随机变量t，令Xt= 1Xt-1+ t 步骤3 令t=t+1,转到步骤2.,21,

展开阅读全文