1、输入建模,汪云峰 博士 管理科学与工程系,输入模型提供了仿真的驱动力 输出的质量不会比输入的高 输入建模的四个步骤: 收集和检验数据 选择一个合适的分布 为该分布确定参数 评价所选择的分布和参数,2,为何要检验数据?,许多用于拟合分布的统计技术都假定数据是独立且同分布的(IID, Independent and Identically Distribution)。,3,如何检验数据?,独立性检验(随机性检验):样本数据之间是否相互影响。 同质性检验:数据是否服从同一分布。 K-W假设检验 (Law & Kelton, 6.13) 不同日期收集到的银行服务时间数据 同一个机场中收集到的来自不同城
2、市的航班到达时间数据 不同型号机床的加工时间数据 平稳性检验:数据的分布参数是否随时间变化而变化。 参见拟合非平稳泊松过程。,4,选择分布簇,以分布的物理基础为指导 固定长度时间或固定大小空间内发生的独立事件次数,如在1小时内到达商店的顾客人数,在30平方米金属板上发现的缺陷数。 泊松分布 部件的故障时间,如硬盘驱动器的故障时间。 韦布尔分布 许多子过程之和的过程,如产品的组装过程是每个组装操作时间之和。 正态分布 过程的值在本质上是离散的还是连续的?过程有边界吗? 参考stat:fit的Guide to Distribution Choice,5,选择分布簇,对于任何随机输入过程没完全准确的
3、分布。 目标:获得好的近似,经常是填补空缺或平滑数据。观察直方图等图形工具 各种统计量都是综合性的信息表达,不能代替直方图之类的工具,它们能够表达发生未拟合的位置。,6,如何确定区间的数量?,区间的数量决定于 观测值的数量 数据的分散程度 建议:样本尺寸的平方根如果数据的数量较少,合并相邻单元来消除毛刺。,7,直方图,汽车到达:在100个随机工作日的上午7点至7点5分到达的车辆数量在有大量数据的情况下,在直方图中每一个可能的值都对应一个区间。,8,参数估计,在选择分布簇后的下一个步骤。 如果观察到尺寸为n的样本是X1, X2, , Xn (离散或者连续),样本的均值和方差为:如果数据离散的,且
4、被分组到一个频度分布中(fj 是Xj的观测频度):,9,参数估计,对于连续的值,使用原始数据是更好的选择。但如果数据被放入分组区间,近似的样本均值和方差为:其中,fj 是第j个分组区间的观测频率, mj是第j个区间的中点, c是区间的个数。参数是未知的常数,但是估计量是一个统计值。,10,参数估计,车辆到达 样本均值与方差为:直方图显示X具有泊松分布 然而,样本均值并不等于样本方差。(泊松分布最重要的性质) 每一个估计量都是随机变量,并不完美。,11,拟合优度测试,输入数据分布的假设检验: 2检验 比较数据的直方图与备选分布的概率密度或概率质量函数。 对于用极大似然估计参数的大样本有效 Kol
5、mogorov-Smirnov 检验 比较累积分布函数 样本容量小,不需要从数据中估计参数时尤其有效。 Anderson-Darling检验 比较累积分布函数 在分布的尾部对差别更为敏感。 在实际应用中不存在唯一正确的分布 如果没有足够数据可用,它不可能拒绝任何备选分布。 如果有大量数据可用,它可能会拒绝所有的备选分布。,12,p值与最佳拟合,检验统计量的p值 显著水平是错误拒绝H0(拒真)的概率。 检验时并不需要预先指定显著水平,自然有一个客观存在的极限值。 对于给定检验统计量值,找到刚好拒绝H0的显著水平(即为p值)。 拟合效果的度量,p越大越好。 接受一个分布时,最怕纳伪。 p值越大,拒
6、真的可能性越大,纳伪的可能性越小。 H0强壮性高,更有信心接受。,13,车辆到达: H0:数据服从泊松分布 检验统计量: p值= 0.00004,在0.00004的显著水平下拒绝 H0 ,具有非常高的纳伪可能性,因此泊松分布是一个坏的拟合。,14,p值与最佳拟合,许多软件根据p值来对拟合的结果进行排序,以自动决定最好的拟合结果。但要注意: 软件并不知道数据的现实背景,其所建议的分布也许并不合适。 对数据的紧密符合并不总能得到最适当的输入模型。 p值并不指出拟合不佳的位置。 建议:始终运用图形方法来检查自动选择的结果。,15,拟合非平稳泊松过程,拟合非平稳泊松到达过程是非常困难的,可能的方式有:
7、 拟合一个具有大量参数的高度灵活的模型; 在一些基本的时间段内采用近似的常数到达率,在不同的时间段中则对该常数进行调整。如果我们需要对时间0,T的到达过程建模,采取后一种方法最适宜的情况是: 能够重复观察这一时间段; 对到达进行计数。,16,拟合非平稳泊松过程,在第i个时间段内估计的到达率:其中n为观察周期数,Dt为时间区间长度,Cij为在第j个观察周期中在第i个时间区间内观察到的到达数量。,17,拟合非平稳泊松过程,将10小时的工作时间 8am,6pm分为20个相等的间隔,Dt = ,观察3天。参数类似的时间段可以考虑合并,如8:30至9:30。 拟合优度检验可以单独用于每个时间区间的数据。
8、,18,(23+26+32)/(3*0.5) = 54 arrivals/hour,多变量与时间序列输入模型,多变量 考虑库存模型中的提前期和年需求,增加需求通常导致提前期延长,可见变量之间相互依赖。 时间序列 考虑在连续到达的买卖股票的时间间隔,买和卖倾向于集中到达,因此在到达时间间隔也是相关的。,19,多变量输入模型,20,令X1表示年平均提前期,X2表示年需求量。 1、1、2、2分别代表两个变量的均值和标准差。 由标准计算得到相关系数为=0.86 拟用双正态随机变量来建模提前期和需求量: 步骤1 生成独立的标准正态分布随机变量Z1和Z2 步骤2 取X1=1+1Z1 步骤3 取X2=2+2
9、(Z1+(1-2)1/2Z2),时间序列输入模型,顾客买单和卖单的20个时间间隔(秒): 1.95 1.75 1.58 1.42 1.28 1.15 1.04 0.93 0.84 0.75 0.68 0.61 11.98 10.79 9.71 14.02 12.62 11.36 10.22 9.20由标准计算得均值为5.2,方差为26.7,滞后为1的自相关系数1=0.8。 生成一个平稳的指数自回归一阶模型(EAR(1)): 步骤1 由均值为5.2的指数分布生成随机变量X1,取t=2。 步骤2 由0,1上的均匀分布生成随机变量U。若U 1,则令Xt= 1 Xt-1。否则由步骤1中的指数分布生成随机变量t,令Xt= 1Xt-1+ t 步骤3 令t=t+1,转到步骤2.,21,