1、2 实验数据处理,在自然界中,有很多的现象是不能用我们以前所学的知识所能解决的研究动机 比如我们在耐液锌蚀腐蚀合金研究过程中,它是由许多种元素配合,再通过高温熔炼而成。可以用多少种成份来配料,熔炼温度需要多高,后续如何处理?这些往往都是未知数。而且没有一定的规律可言。那就需要我们进行大量的试验来寻找它的配方及烧制温度。,在实验过程中将要利用各种方法对样品进行分析测试,产生许多测量数据。 按测量值获得的方法分为:直接测量、间接测量和组合测量 直接测量:如用米尺测量长度 间接测量:利用直接测量结果,根据特定关系计算特定物理量,如晶面间距测量 组合测量:测量长宽,计算面积,第二章 实验数据处理,在自
2、然科学领域,常用函数表达变量之间的数量关系 例如扩散层厚度与时间的关系,利用公式便于分析规律 如何利用有限的实验数据拟合出一个近似公式,这就是参数拟合问题。 确定参数的方法主要有最小二乘法和最大似然法。 如要判断一组数据是否在某个精度范围内与理论公式一致,就是假设检验问题。 采用代数多项式来表示复杂的函数,可用插值法,2.1 误差理论简介,误差的含义 绝对误差 相对误差 置信区间 贝叶斯理论 区间估计 不同分布样本的区间估计,一、误差的含义,可以通过一定的试验测试或运算用估计值表示理论值的近似值。试验值(估计值)与理论值(真值)之间的差值称绝对误差,简称误差。 真值往往很难得到,因而误差的绝对
3、值也是无法知道的。但是根据测量工具或计算情况可以估计误差值上限或估计值的精确程度。,相对误差,误差限的大小还不能完全表示近似值的好坏,如101与10005两个量,虽然前者绝对误差较小,但是显然后者更精确。 所以除了考虑误差的大小以外,还应考虑准确值本身的大小,误差与准确值的比值称为近似值的相对误差。,系统误差与随机误差,系统误差 由于某种原因所产生,并遵循一定的规律进行变化. 例如,随样品或试剂用量的大小按比例进行变化. 系统误差有一定的指向,例如称量一种吸湿性物质,其误差总是正值. 它属于方法和技术问题,知道了产生的原因,便可消除或修正,所以此种误差也称可定误差. 随机误差 在相同条件下重复
4、多次测定同一物理量时,误差大小或正负变化纯属偶然而毫无规律,这种误差称为随机误差,也叫偶然误差.,系统误差的特点,重现性 单向性 数值基本恒定 系统误差可以校正。可用一定的方法消除。,随机误差分布,随机误差是不可预测、不可避免的 根据统计理论,随机误差服从高斯分布(正态分布) 随机误差具有 单峰性:较小误差出现的几率较大 对称性:绝对值相等的正负误差出现的几率相等 有界性:大误差出现的几率较低 因此,测量次数较多时,均值会趋于真值,随机误差的估算,算术平均误差 用算术平均代替真值,可以计算绝对误差的平均值。 标准误差(方差) 反映数据偏离真值的分散程度,即均值与真值之间的接近程度。,几个精度概
5、念,精密度:多次测量结果之间的符合程度,反映随机误差的大小,重现性 正确度:系统误差的大小 准确度:测量值与真值的一致程度,反映系统误差与随机误差的综合,在热工、电工仪表中,正确度等级一般都用引用误差来表示,通常分为0.1, 0.2, 0.5, 1.0, 1.5, 2.5, 5.0 七级。 例如,某仪表正确度等级为R级(引用误差R%),满量程的刻度为X,实际使用时的测量值为 x (x X),则,通过上面的分析,可知为了减少仪表测量的误差,提高正确度,应该使仪表尽可能在靠近满量程刻度的2/3以上的区域内使用的原则。,提高实验数据准确度的方法,减少系统误差的途径对照实验 空白实验校准仪器 校正方法
6、减少偶然误差的途径多次测量、取平均值防范过失!,粗大误差,粗大误差也称过失误差,是一种不应发生,而仅由于粗心、疏忽等引起的误差。 往往是由于非正常实验条件或非正常操作所造成的. 如测量时对错了标志, 误读了数码, 实验仪器未达到预想的指标,记录计算错误,加错了试剂等 粗大误差的数值远大于系统误差和随机误差,实际上已超出了误差范围 含有粗差的测量值常称为坏值或异常值, 应予以剔除,否则会影响结果,坏值剔除,用统计法进行坏值剔除的基本思想是:给定一显著性水平,并确定一门限值,凡超过这个门限的误差就认为它不属于随机误差的范畴,而是粗差,并予以剔除.,拉依达( )准则,拉依达准则又被简称为3准则。由于
7、随机误差服从正态分布规律,因此 P| 3=99.7 有限次测量误差超过3的几率很小,可以剔除 由于实际上未知,如果可以剔除,弃真几率很小,例,24个测量值的均值为40.41 24个测量值的标准差S0.0321 3S0.0963 与平均值偏差最大的是21次测量结果40.30,偏差0.11,超过3S,坏值 去掉该值后,均值40.41,S0.0225 偏差最大(5,14)0.053S,有效,肖维勒准则,肖维勒认为,在n次测量中,某误差可能出现的次数小于半次时,则舍去这个误差值。 误差等于或大于出现的相对频数可近似地取为1-P 测量次数为n,误差等于或大于出现的次数为n( 1-P)S,即可判断为粗差,
8、Chauvenet系数的数值表,Grubbs准则,格拉布斯(FEGrubbs)准则同样适用于对同一参数进行重复测量得到的一列测量数据的处理。 这个准则经蒙持卡罗法考验后,认为是最有效的判别方法。 同上,当 时则认为xi是含有粗值的坏值,应予剔除,Grubbs系数数值表,t检验法,该准则又可称为罗曼诺夫准则。当测量次数较小时,按t分布的实际误差分布范围来判断粗大误差较为合理。 t检验准则的原则是:首先剔除一个与均值偏离最大的数据,然后对剩余的数据进行统计计算,以判定该次剔除是否合理,即判定已被剔除的那个数据是否含有粗大误差。,在剔除某一数据xi后,重新计算均值和方差,如果时,剔除坏值xi其中T为
9、t分布,自由度f=n-2,Dixon 准则,狄克松(Dixon)准则采用了极差比的方法,不必求方差。 对于某一等精度重复测量,按测量值的大小排列为x1x2xn 如果上述测量值中有含有粗大误差的测量数据,首先值得怀疑的是x1、xn。 狄克松首先定义了一个与x1,xn和、n有关的极差比统计量f(f的计算公式见表),如果f临界值f(a,n) 则认为在显著性水平下, x1、xn含有粗大误差,应予以剔除。狄克松准则一次能判别两个数据x1,xn ,如果这两个数据都不含粗大误差,判断结束。 如果这两个数据中有含粗大误差的数据,则予以剔除。剔除后的数据列当做新的数据列,重新进行判断,有效数字,有效数字是指在实
10、验中实际上能测量到的数字。记录数字和计算结果时究竟应该保留几位数字,必须根据测量方法和使用仪器的准确程度来决定。在记录数据和计算结果时,所保留的有效数字中,只有最后一位是可疑的数字。称量瓶质量:10. 373g,10.3732g,10.37321g 10.3732 0.0001g盐酸溶液体积:24.2mL,24.21mL,24.213 mL 24.21 0.01 mL有效数字的位数直接与测定的相对误差有关!在测量准确度的范围内,有效数字位数越多,测量也越准确。但超过测量准确度的范围后,过多的数字是没有意义的。,有效数字的运算规则,记录测量数据时,只保留一位可疑数字;当有效数字位数确定后, (计
11、算结果中的)其余数字应舍去修约方法:四舍六入五留双原有数据: 3.1424 3.2156 5.6235 4.6245 四位有效数据: 3.142 3.216 5.624 4.624当第一位有效数字大于或等于8,其有效数字可以多算一位。三位有效数据: 3.14四位有效数据: 9.37,实验结果的表示,测量结果最常用的表示方式是均值和标准偏差。前者表征测试量的大小,后者表征测试的精密度。 与之有关的是有效位的取舍. 所谓有效位是指某种测量所达到的精度. 如下列测试值:10.09,10.11,10.09,10.10和10.12,其均值为10.102,标准偏差为0.0130.但测试值仅准确到小数点后面
12、第一位,而第二位为可疑位,故结果的表示为:,有效数字及计算规则,当几个数据相加减时,其有效数字的保留应以小数点后位数最少的数据为依据。32.1 416.9 3.235 123 35.335 35.3 293.9 294,有效数字及计算规则,在大量数据的运算中,为使误差不迅速积累,对参加运算的数据可以多保留一位有效数字。待运算完成后在进行舍入。5.2727 0.075 3.7 2.125.27 0.08 3.7 2.12 11.17 11.2,有效数字及计算规则,当几个数据相乘除时,其有效数字的保留应以有效数字位数最少的那个数为依据。0.0121 25.64 1.05782 0.0121 25.
13、6 1.06 = 0.328 0.0121 25.64 1.058 = 0.3282 = 0.328,二、置信度与置信区间,设一未知参数X(例如材料的硬度),虽然其精确值未知,但是可由若干试验值(样本)估计它在某个范围内。如果有区间x1,x2,对于给定值m(0 m1),X值在X1-X2之间出现的概率满足 P (X1XX2)=m 则称随机区间x1,x2是X的100m%置信区间,X1是置信下限,X2是置信上限,百分数100m%称为置信度。,置信区间举例,假如真值为Xo,拟合出参数的值XX, 意味着在某个概率下,多次测量的X估计值(近似等于Xo)可以落在以上范围内。 如果估计值X服从正态分布,X在某
14、范围(如X1,X2区间)选值的概率等于高斯概率密度曲线下X1到X2的面积。若采用标准误差和测量值X来表示测得的真值Xo范围,则 P(X - Xo X + )0.68 P(X -2 Xo X +2)0.95 P(X -3 Xo X +3)0.9974 显然,区间越宽,置信度越高。,三、不同分布的区间估计,1. 对于正态分布样本,可以用若干样本平均值估计总体平均值,举例,例二,如果方差未知,可以用样本方差s作为总体方差的近似值,样本均值与整体均值之间服从t分布。,例3,钢中Cr含量的5次测定结果(%)为1.12,1.15,1.11,1.16,1.12。根据这批数据估计Cr的含量范围(90%)。1.
15、10,1.16,normfit,MU估计值, SIGMA估计值, MU区间, SIGMA区间 = normfit(x,alpha) 对给定数据x,在置信度100(1- )条件下给出正态分布参数的无偏估计 该函数输入变量最多2个,第2参数 的缺省值= 0.05 对应于置信度90%(双边)或95%(单边)。 函数的输出值最多可以有4个,可以选择前14个作为输出结果。,2. 0-1分布参数的估计,举例,binofit,binofit 对二项分布数据参数和置信区间估计 binofit(x,n) 对于给定数据 X返回取1的几率 phat, pci = binofit(x,n,alpha) 给出极大似然估
16、计值和100(1-) % 置信区间 缺省值 = 0.05 对应于90%置信区间(双边)或95%(单边)。,3.契比雪夫不等式,变量之间的关系分为两类。一类是确定性关系,如函数关系。另一类是非确定性关系。当自变量x确定以后,因变量y并不确定,而是符合一定分布的随机变量。二者的关系可以表示为y=f(x)+, 随机项N(0,1),f(x)是确定函数,称为回归函数。 回归分析的任务一是根据经验公式、散点图等确定回归函数;还要检验回归函数是否合理;回归的目的是用f(x)预测和决策。,如果通过试验得到了一组样本观察值(试验值),自然希望利用这组数据来估计总体参数的值,在统计学上称为点估计问题。 例如歌手大
17、奖赛评分方法,去掉若干最高最低,然后求平均值,估价歌手的水平。,参数估计的方法,估计值的求法有很多,如 常用的数字特征法,用样本的数字特征,如平均值、方差等估计总体的数字特征。 顺序统计量法是一种简便方法,将样本按大小顺序排列,取居中的一个或几个数的平均值作为总体均值的估计值、用最大值与最小值的差值估计数据的离散程度。 最小二乘法和最大似然法是求出未知参数值的有效的方法。,2.2 最小二乘法,在实验数据处理中,常常需要从一组测定的数据(xi,yi)去求自变量x和因变量y的近似函数关系式y=f(x)。从图形上看,就是由给定的N个点(xi,yi)(i=1,2,n)求曲线拟合的问题。 实际上实验中所
18、得到的数据总是有测试误差的,因此并不要求曲线通过所有的点。,最小二乘法原理,曲线拟合是要求画出一条近似曲线,尽可能从给定点的附近通过,能反映给定数据的一般趋势,但是尽量不出现局部波动。 最小二乘法是参数估计的一种方法,可用来求这样的近似曲线。对于含有观测误差的数据来说,这样的处理可以部分抵消数据中含有的观测误差。,最小二乘法,误差选取,1.直线拟合(线性回归),如果由试验得到的一组数据(xi,yi)在平面x-y上画出的曲线与直线差不多,就可以用直线y=a+bx去拟合。问题就变为选择适当的参数a和b,使得取得最小值。,直线拟合算法,2.代数多项式拟合(回归),代数多项式拟合算法,多项式次数,从这
19、个方程组可以求出系数aj即可得到所要求的m次多项式曲线方程。 当m值较大时,以上方程的系数行列式将减小,使方程组出现病态,因而一般多项式拟合最高次数只取到m=4-5。,3.线性模型的推广,Curve fit toolbox,利用曲线拟合工具箱 可以对数据进行各种函数形式的拟合,如多项式拟合、指数函数拟合、高斯拟合等 在命令窗口利用函数a=polyfit(x,y,n)返回n次多项式的系数;,Matlab矩阵除法,利用矩阵除法可求解超定、欠定方程。 矩阵除法可以实现特殊形式的回归 例如,求一形如y=a+bx2的经验公式中的系数例如已知x,y的5个值,令x1=ones(5,1),(x.2);ab=x
20、1y即可得到系数a,b,4 多元线性拟合,最小二乘法可以推广到二元、甚至多元线性拟合。 设因变量为y,两个自变量分别为x1和x2,假设已通过试验测得一系列数据为(yi,x1i,x2i), i=1,2,3n 则二元线性回归方程可表示为 ya+b1x1+b2x2 式中a为常数项,b1和b2分别为y对x1和x2的偏回归系数。,残差平方和 根据最小二乘法的原理,令残差平方和最小,可求得这些参数。对相关参数求导数,得,方程组的简化形式,Regress函数,利用统计工具箱命令regress实现多元线性回归 调用格式为b=regress(y,x) 或 b,bint,r,rint,stats = regess
21、(y,x,alpha),alpha为显著性水平(缺省时设定为0.05) 输出向量b,bint为回归系数估计值和它们的置信区间,r,rint为残差及其置信区间 stats是用于检验回归模型的统计量,有三个数值,第一个是R2,其中R是相关系数,第二个是F统计量值,第三个是与统计量F对应的概率P,当P时拒绝H0,回归模型成立。 用命令rcoplot(r,rint)画出残差及其置信区间,,Excel回归,1 将数据录入excel 表格 2 用图表向导画出散点图, 3然后用右键点击数据点,添加趋势线,注意选择合适的类型 4用右键点击趋势线,从趋势线选项中可以选择显示公式和相关系数R,利用数据分析工具,加
22、载宏(分析工具库)以后,工具中会出现数据分析命令,从中选择“回归”可以进行多元线性回归分析 利用适当的变量替换,也可以进行多项式回归或多元非线性回归分析,数据区域选择,回归结果,Z=3.9178E-13+1x+1y+/-s,5 预测,利用回归方程可以进行预测:点估计和区间估计 回归方程计算结果自然是一个点估计,如y0=x0. 实际应用中,可能还需要估计目标的区间 对于n个数据得到的p元线性回归,预测目标的区间估计,利用分布置信度1- 的置信区间为,多元线性回归是数据分析的强有力工具,建立一个模型是一个复杂过程。 根据专业知识背景,确定有关变量:舍弃误差大,不重要、相关数据 要收集足够数量(10
23、倍自变量)高精度的数据; 预分析:根据专业知识和经验确定自变量的高次项及交叉乘积是否进入模型,是否需要数据转换,检验全变量线性关系是否显著,利用残差分析等手段考察误差分布的正态性、等方差性假定是否合理? 确定回归关系形式后,选择影响显著的变量,确定最优回归方程,2.3 假设检验,假设检验是统计推断的另一类重要问题,它是根据样本的信息来判断一组数据是否在某个精度范围内与理论公式一致, 或判断总体分布是否具有指定特征。 假设检验包括参数检验和分布检验。 参数检验是在假设是正确的情况下,计算得到拟合参数的几率。如果该几率较大,则接受假设,反之则放弃假设。实际工作中一般采用分布假设。,1. 分布律的检
24、验,分布律检验的原理是Pearson平方和准则 假设n个样本来自分布为F(x)的总体; 将实数域分成k个区间, 若样本落在第i个区间的次数为mi,而根据分布律计算得到的概率为pi,分布律检验,选取统计量 式中r为需要估计的参数个数 根据样本观察值计算统计量的值 查表得临界值如果 一般可以接受这种分布假设,反之拒绝假设,2.均值估计,均值估计示例,U检验法(),Ztest 样本均值与一常数进行比较 h,p,ci,zval = ztest(x,m,sigma,alpha,tail) h=0接受原假设,h=1拒绝原假设 m均值, tail=0,1,-1对应于备选假设为不等于、大于和小于m,T检验法(
25、方差未知),ttest: 样本均值与一常数进行比较 matlab函数用法与ztest相似 H,P,CI,STATS = ttest(x,m,alpha,tail) 判断来自于正态分布的X均值是否为m. 缺省值m = 0, = 0.05 ,tail = 0 原假设: 均值m 对于tail=0, 备选假设: 均值 不等于m. 对于tail=1, 备选假设: 均值 大于m 对于tail=-1,备选假设: 均值 小于m,3.以误差判断拟合质量,4.回归分析,回归(拟合)可以由最小二乘法实现,matlab polyfit 回归方程的质量常用相关系数和F检验作为评估指标。 相关系数用如下公式计算相关系数用
26、以描述两个变量线性相关的密切程度。绝大部分R值在0-1之间。,相关系数与样品个数,相关系数与样品的抽样个数有关。 对于一定观察次数n,相关系数必须大于一定值所拟合的直线才有意义,此时我们称二者显著相关 。,可以证明,当X Y均服从正态分布,当二者无关时,统计量给定显著性水平,可查表求得临界值t(n-2) 若计算的统计量t t(n-2),则可以认为X Y二者显著相关,相关系数有效。 否则可认为X Y二者无关。,F检验,复相关系数,对于多元线性回归,采用复相关系数。,复相关系数的意义,R反映了变量y与多个变量xi(i=1,2,3)之间的线性相关程度。 R=0表示x,y之间无关, R=1表示x,y二
27、者严格线性相关。 R越大,线性回归效果越好。,回归方程变量个数,复相关系数是总回归效果的一个重要指标,但是R与回归方程中自变量个数K以及试验次数n有关。当n值相对于K不是很大时,常有较大的R。特别是当n=K+1时,即使K个自变量与y无关,也必然有R=1(Q=0),因此在实际计算当中必须注意K与n的相对比例。根据经验,n应该比K大4-5以上。,复相关系数的临界值,统计量W服从F分布F(k,n-k-1) 可根据置信度大小在F表中查出相应的临界值。当计算的F值大于临界值则认为回归效果显著。,偏相关系数,偏相关系数表征单个因素对因变量的作用大小。偏相关系数也可以用普通相关系数公式计算,即ri越大,说明
28、y对xi的依赖越显著,这时不可将该因素剔除。,偏相关系数的临界值,常用如下统计量来衡量该因素的显著性给定置信度,可以根据t分布表,查出临界值t,当计算值W的绝对值大于临界值t,则认为xj对y产生显著影响,不可忽视。,Matlab实现,相关系数r=corrcoef(x,y), 式中 X 和 Y 列向量, 等价于 r=corrcoef(x y).,单个回归系数的显著性,利用统计量式中分子分别为对第k个变量回归系数的估计值和系数值, 分母s是系数的标准差的估计,T检验法,单个回归系数的显著性,在k0时, |tk|不应过分偏大。反之,若则可以认为在置信度(1)条件下xk对结果有显著作用,单个回归系数的
29、显著性,或选取统计量akk是(XX)1的主对角线上第k个元素 Fk不应过分偏大。反之,若则可以认为在置信度(1)条件下xk对结果有显著作用,5 方差分析,试验过程中经常需要分析各种方法、参数对实验结果的影响 方差分析是鉴别各个因素效应的一种统计方法 20年代英国统计学家R A Fisher首先应用到农业试验中。,如果试验时只有一个因素在变化,其它可控制的因素都不变,称单因素试验 若变化的因素多于一个,称为双因素或多因素试验,单因素分析模型,在同一水平Ai下独立观察ni次,因变量的观察值服从正态分布; 不同水平的观察值来自于不同的正态总体; 除A的水平变化外,尽量控制替他条件相同,即假定各正态总
30、体具有相同的方差,因素的影响只局限在均值的差异,单因素方差分析,将试验的变异因素A分成r个水平,对每一个水平进行重复试验,列出试验结果,是i 的良好估计值,SE反映了随机误差ij的影响;称为误差平方和; SA反映了i (I=1,2,r)之间的差异程度,反映了各水平效应对观测量的影响;称为因素的平方和,选取统计量如果统计量F临界值F,该因素没有显著作用,反之作用显著。,举例,某学期本课程三个班成绩情况,Se,Sa计算,总平均(74.37524+5324+5739)/(24+24+39)=60.690 Sa=24*(74.375-60.690)2+24*(53-60.690)2+39*(57-60
31、.690)2=6445 Se= 23*12.3702+23*17.8472+ 38*9.2932=14126.92 F=(6445/2)/(14126.92/84)=19.16 查表取0.05,F(2,60)=3.15 查表取0.01,F(2,60)=4.98 可见三个班的考试成绩有非常显著差别,例2,某学期4个班97人材料科学基础B成绩 均值66.42268 1班:76.438,8.813,32人;2班:46.280,14.845, 25人;3班:75.600,9.170, 25人;4班:63.333,10.175, 15人 Sa=15601.42 ST=26765.67 Se= 11164
32、.25 查表取0.01,F(3,60)=4.13 F=(15601.42/3)/(11164.25/93)= 43.32 可见4个班的考试成绩有非常显著差别,例3 2011材料基础A成绩,双因素方差分析,进行双因素分析的目的是要检验两个因素对实验结果有无影响 如果不考虑两因素的相互作用,对每一因素的每一水平可以只取一个数据,即没有重复; 如果考虑两因素的相互作用,可以进行不等重复试验,无重复试验,选取统计量如果统计量FA,或FB临界值F,该因素没有显著作用,反之作用显著。,重复试验,如果要考虑A,B两因素是否存在交互作用,需要对两因素、各种的水平组合进行重复试验 设每一个组合均重复m次,如果不
33、等重复,用均值补齐以便于计算 N=rsm 记Xijk是Ai、Bj组合的第k次试验,显著性检验,选取统计量如果统计量FA,FB或FAXB临界值F,该因素没有显著(交互)作用,反之作用显著。,虽然两个因素、以及交互作用是同时讨论的,但是他们的地位不同 具体应用中,应首先检验有无交互作用, 若无交互作用,然后检验A、B的效应显著性 若存在交互作用,单独考虑A、B各水平值的差异已经没有意义,可通过比较因素各水平的组合上的均值来了解其差异,2.4 函数的插值,在试验中测得的是一些离散点处的函数值,要想获得任意一点的函数值,可以采用插值的方法。 1.线性插值 假设, 线性插值公式为当x-xi较小时,这种方
34、法是很常用的,但是这种方法误差较大。,2.Langrange插值多项式,已知n+1个互不相同的点xi上函数依次取值yi,对于插值区域内任意一点x,可以用拉格朗日多项式Ln(x)计算函数值Langrange插值多项式次数为n,通过n+1个(xi,yi)点。当选择的插值多项式次数太高时,计算量较大,效果也不理想。一般采用三点抛物线插值。,3.样条插值,机械样条(曲线板)是绘图员用来画光滑曲线的一种工具。样条函数有近似于机械样条的性质,它在连接点处不仅函数连续,而且一阶导数、二阶导数也连续。 在实际应用中广泛使用的是三次样条函数。 一般来说,一个区间对应的插值多项式与其他区域是不同的。根据区间边界处函数值连续、导数值连续的条件,可以得到一个方程组,从而确定各区间的插值函数。,Matlab实现,Y1=lagrange(x,y,x1) Yi=interp1(x,y,xi),分段插值 Yi=interp1(x,y,xi,spline),三次样条插值,举例,x=0:0.1:10; y=sin(x); x1=0:0.25:10; y1=interp1(x,y,x1);plot(x,y,o,x1,y1),