收藏 分享(赏)

数据标准化的原因和方法.docx

上传人:HR专家 文档编号:12067477 上传时间:2021-08-26 格式:DOCX 页数:3 大小:71.83KB
下载 相关 举报
数据标准化的原因和方法.docx_第1页
第1页 / 共3页
数据标准化的原因和方法.docx_第2页
第2页 / 共3页
数据标准化的原因和方法.docx_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

1、精品文档数据标准化的原因和方法一、为何要将数据标准化?由于不同变量常常具有不同的单位和不同的变异程度。 不同的单位常使系数的实践解释发生困难。例如:第 1 个变量的单位是 kg,第 2 个变量的单位是cm,那么在计算绝对距离时将出现将两个事例中第 1 个变量观察值之差的绝对值(单位是 kg)与第 2 个变量观察值之差的绝对值(单位是 cm )相加的情况。使用者会说 5kg 的差异怎么可以与3cm的差异相加?不同变量自身具有相差较大的变异时, 会使在计算出的关系系数中, 不同变量所占的比重大不相同。 例如如果第 1 个变量(两水稻品种米粒中的脂肪含量)的数值在 2%到 4%之间,而第 2 个变量

2、(两水稻品种的亩产量) 的数值范围都在 1000 与 5000 之间。为了消除量纲影响和变量自身变异大小和数值大小的影响,故将数据标准化。二、数据标准化的方法:1、对变量的离差标准化离差标准化是将某变量中的观察值减去该变量的最小值,然后除以该变量的极差。即xik xik Min(xk Rk)经过离差标准化后, 各种变量的观察值的数值范围都将在 0,1之间,并且经标准化的数据都是没有单位的纯数量。 离差标准化是消除量纲 (单位)影响和变异大小因素的影响的最简单的方法。 有一些关系系数(例如绝对值指数尺度)在定义时就已经要求对数据进行离差标准化, 但有些关系系数的计算公式却没有这样要求, 当选用这

3、类关系系数前, 不妨先对数据进行标准化, 看看分析的结果是否为有意义的变化。2,对变量的标准差标准化标准差标准化是将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即xik ( xik ) sk经过标准差标准化后,各变量将有约一半观察值的数值小于 0,另一半观察值的数值大于 0,变量的平均数为 0,标准差为 1。经标准化的数据都是没有单位 的纯数量。对变量进行的标准差标准化可以消除量纲(单位)影响和变量自身变异的影响。 但有人认为经过这种标准化后, 原来数值较大的的观察值对分类结果的影 响仍然占明显的优势,应该进一步消除大小因子的影响。尽管如此,它还是当前用得最多的数据标准化方法。

4、1 欢迎下载精品文档3,先对事例进行标准差标准化,再对变量进行标准差标准化第一步,先对事例进行标准差标准化,即将某事例中的观察值减去该事例的平均数,然后除以该事例的标准差。即xik ( xik ) si第二步,再对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即x ik ( xik k) sk使用这种标准化的目的也在于消除性状间的量纲(单位)影响和变异大小因子的影响,使性状间具有可比性。4,先对变量、后对事例、再对变量的标准差标准化这种标准化的目的也在于消除性状间的量纲(单位)影响和变异大小因子的影响,使性状间具有可比性。具体做法是:第一步,先对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即xik ( xik ) sk第二步,后对事例进行标准差标准化,即将某事例中的观察值减去该事例的平均数,然后除以该事例的标准差。即x ik ( xik i ) si第三步,再对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即x ik ( x ik k) s k进行了前两步之后,还要进行第三步的原因,主要是为了计算的方便。2 欢迎下载精品文档欢迎您的下载,资料仅供参考!致力为企业和个人提供合同协议,策划案计划书, 学习资料等等打造全网一站式需求。3 欢迎下载

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 网络科技 > 计算机原理

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报