分析化学中的数据处理.ppt-资源下载-道客多多-道者的世界，分享的人生！

分析化学中的数据处理.ppt

1、单击此处编辑母版标题样式单击此处编辑母版副标题样式* 1l 研究对象的某种特性值的全体叫总体；从总体中随机取出的一组数据叫样本；样本所含测量值的数目叫样本容量。例如，对某矿石中 Fe的含量作了无限次测定，所得无限多个数据的集合就是总体，其中每个数据就是个体，从中随机取出一组数据（例如 8个数据）就是样本，样本容量为 8。2.1 几个概念 (P241)l 设样本容量为 n，则其平均值为l 当测量次数无限多时，所得平均值即为总体平均值：l l （ 2 1）l 若没有系统误差，则总体平均值就是真实值l 在分析化学中，广泛采用标准偏差来衡量数据的分散程度l 总体标准偏差l 当测量次数

2、为无限多次时，各测量值对总体平均值的偏离，用总体标准偏差表示：l （ 2 2）l 样本标准偏差l 当测量值不多，总体平均值又不知道时，用样本的标准偏差 s来衡量该组数据的分散程度。l 当测量次数非常多时，测量次数 n与自由度（ n-1）的区别就很小了，此时 l 即 l 同时 sl 平均值的标准偏差l 单次测定值的标准差 S反映的是单次测定值l 之间的离散性l 平均值的标准差反映的是若干组平行测定，各平均值之间的离散性l 若对某试样作若干批测定，每批又作 n个平行测定l 则 l （ 2 4）l 由此可见 :l 平均值的精密度比单次测定的精密度更好 , ；平均值的标准偏差与测定次数的平

3、方根成反比 . 增加测定次数，可使平均值的标准偏差减小。 l 作关系图如 P244图 7 1所示。开始时，随减少很快， n5变化较慢，而当 n10时，变化很小，进一步增加测定次数，徒劳无益，对提高分析结果可靠性，并无更多好处。实际中，一般的分析作 3 5次平行测定即可，而标样、物理常数、原子量的测定则次数较多l 随机误差是由一些偶然因素造成的误差，其大小、方向都不固定，难以预计，不能测量也无法消除。它的出现似乎很不规律，但实质上，它的出现和分布服从统计规律2.2随机误差的正态分布 (P245)l 它在概率统计中占有特别重要的地位，因为许多随机变量都服从或近似服从正态分布，分析测定中的随

4、机误差也是这样的， P246图 7 3即为正态分布曲线，它的数学表达式为：l l （ 2 5）l 式中 y为概率密度 x为测量值1正态分布（高斯 GAUSS分布）l为总体平均值，即无限次测定数据的平均值，相应于曲线最高点的横坐标值，在没有系统误差时，它即为真值，它反映无限个测量数据分布的集中趋势l-总体标准偏差，是到曲线两拐点之一的距离，它表征数据的分散程度，小，数据集中，曲线瘦高；大，数据分散，曲线矮胖。lX 表示随机误差，若以 X 为横坐标，则曲线最高点横坐标为 0，这时表示的即为随机误差的正态分布曲线l 由图可看到随机误差有以下规律性：1)偏差大小相等、符号相反的测定值出

5、现的概率大致相等2)偏差小的测定值比偏差较大的测定值出现的概率大，偏差很大的测定值出现的概率极小，趋近于 03)大多数测定值集中在的附近，所以为最可信赖值或最佳值l 正态分布曲线随、值不同而不同，应用起来不方便，为此，采用变量转换的方法，将其化为同一分布标准正态分布l 即令代入（ 2 5）式得l 又l 所以l 即将式（ 2 5）转化为只有变量的方程l l （ 2 6）l 因此曲线的形状与大小无关，即不同曲线皆合为一条l 标准正态分布曲线见 P247图 7 4，它以总体平均值为原点，以为横坐标l 正态分布曲线与横坐标 - 到之间所夹的面积代表全部数据出现概率的总和，显然应

6、当是 100，即为 1l P= l （ 2 7）l 随机误差或测量值在某一区间出现的概率可取不同值对式（ 2 7）进行定积分，求得面积（即为概率），并制得标准正态分布概率积分表。由于积分上下限不同，表的形式有很多种，为了区别，在表上方一般绘图说明表中所列值是什么区间的概率，表中列出的面积与图中阴影部分相对应（ P248表 7 2），表示随机误差在此区间的概率，若是求区间的概率，利用正态分布的对称性，必须乘以 22随机误差的区间概率随机误差出现的区间测量值出现的区间概率 P 20.3413 68.320.4773 95.520.4953 99.120.49

7、87 99.7l 从计算结果可知， 95以上的测量值都会落在范围内，随机误差 x-超过的大误差 (或测量值 )出现的概率 0.3，一般化学分析是作几次测定，所以可以认为实际上是不可能出现的，如一旦出现，可认为其不是由于随机因素引起的，应弃去。l 例： P248 例 3、例 4对无限次测量而言，总体平均值衡量数据的集中趋势，总体标准差反映了数据的离散程度，但是，分析化学中常常只作有限次测定。下面将讨论如何通过有限次测定结果对和进行估计，从而合理地推断总体的特性 2.3少量数据的统计处理正态分布是无限次测量数据的分布规律，而实际测定只能是有限次，其分布规律不可能完全相同。英国的统计学家

8、兼化学家戈塞特（ W.S.GOSSET）提出了 t分布规律l l （ 2 8） (书 P249 公式 7 15有误 )l 平均值的标准偏差一有限次测量时的随机误差l总体平均值，无系统误差时就是真值， t分布曲线如图 2 2（ P249图 7 6）所示，纵坐标仍为概率密度，横坐标为 t， t分布曲线与正态分布曲线相似，只是 t分布曲线随自由度 f（ f= n-1）而改变，当时，，t分布曲线即正态分布曲线。l 与正态分布曲线一样， t分布曲线下面一定范围内的面积，即是该范围内测定值出现的概率，但应注意，对于正态分布曲线，只要值一定，相应的概率也就一定；但对于 t分布曲线，当 t一

9、定时，由于 f不同，相应曲线所包括的面积，即概率也就不同。为此引入置信度的概念，置信度 P人们对所作判断的把握程度，其实质为某事件出现的概率，在此表示某一 t值时，平均值落在（）区间内的概率。落在此范围之外的概率为（ 1 P）称为显著性水平，用表示。 l 不同概率 P与 f值所对应的 t值，表示为 t,f 。如 t 0.05,10 代表置信度 95，自由度为 10时的 t值。 t值表见书 P250表 7 3，概率 P都是指双边值，即虽然表中所列的 t值均为正值，实际上每个 t值对应的概率 p是指直线 tt表和 t t表之间所夹曲线下的面积，例如：当 f 3， p 0.95时，

10、t0.05， 3 3.18，是指在自由度 f 3的那条 t分布曲线下，直线 t3.18与直线 t 3.18之间所夹的面积为 0.95。 l 理论上当时，各置信度对应的 t值才与u值一致，但实际当 f 20时， t与 u已很接近。多次重复测定得到一系列测定值，在报告分析结果时，要反映出数据的集中趋势和分散性，一般采用下列三项值，是总体的最佳估计值，反映数据的集中趋势。 S是的估计值，反映数据的离散程度。测定次数 n用于求自由度f，反映数据的可靠程度二一般分析结果的统计表示法l 例测某铁矿样中 Fe的含量，得： 37.45，37.30， 37.20， 37.50， 37.25，报告分析

11、结果l 解： 37.34ldi（ i 1， 25 ）分别为： +0.11 , -0.04 , 0.14 ,+0.16 , -0.09 (%) l 所以分析结果报告如下： 37.34 ，s 0.13， n 5l 注意 :l1） S结果保留几位，要根据值而定，l 如 =0.9987,则 s可为 0.0015，也可写为0.002，最多与可疑位（ 7）相齐。l2）如无，则 s不带，如 20.36， s可写为 0.04，此时才用 “ ”l 在一定置信度上，根据（样本）估计（总体平均值）可能存在的区间 ,只有当，，显然做不到，少数测量得到的总带有一定的不确定性，所以只能在一定置信度上，根

12、据对可能存在的区间作出估计l 由 t分布 (2 8)式 l （ 2 9）l 这表示在一定置信度下，以平均值为中心，包括总体平均值范围，就叫平均值的置信区间（ P251）。三平均值的置信区间（ P251）l 例 1：已知 =35.21%， S=0.06%， n=4，求 P=0.95， 0.99时，平均值的置信区间l 解： P 0.95 ， t0.05， 3 3.18l 理解为：在区间中包括总体平均值的把握（概率）有 95。lP 0.99 t0.01， 3 5.84 l 例 2： P251例 5l 置信度越高， t曲线下面积越大，置信区间就越大，即所估计的区间包括真值的可能性也就越大。但 P 100，则意味着区间无限大，肯定会包括，这样的区间毫无意义；分析中通常将P定在 95或 90l （一）显著性检验l 在分析工作中常遇到这样的情况，某人对标样进行分析，得到的平均值（）与标准值（）不一致；或采用两种不同的分析方法分析同一试样，得到的两组测定数据的平均值l 不一致；或两个不同分析人员对同一试样进行分析时，两组数据的平均值不一致。如这种差异是由随机误差引起，则是不可避免的（正常的），可以认为差异不显著；如这种差异是由系统误差引起，则认为它们之间存在 “显著性 ”差异l四测定数据的评价

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？