1、数据的标准化前端时间有幸参加了公司的重点项目,项目主要是开发一个搜索引擎的内核,改搜索引擎除了基本搜索能力外,还具备一定的内容分类、语义分析等功能。其中引擎内核的数学模型中涉及到数据标准化的问题,这里我根据个人的一些经验,总结了一些有关数据标准化的方法。首先,数据标准化到底是什么?为什么要标准化?标准化后有什么好处?这些都是我刚接触这个词的时候的一些想法,相信第一次接触的人都会跟我一样。数据的标准化(normalization)是将数据按比例缩放,使之落入到一个小的特定区间。如果是落到 0-1 区间,也可以叫为数据归一化,也就是说数据归一化其实是数据标准化的一种特殊情况(有点废话,=。=) 。
2、在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。数据标准化种最典型的就是数据的归一化处理,即将数据统一映射到0,1区间上,常见的数据归一化的方法有(要标准化到其他范围可以采用乘以一个相应的系数处理):最大值-最小值标准化也叫离差标准化,是对原始数据的线性变换,使结果落到0,1区间,具体公式模型如下:其中 max 为样本数据的最大值,min 为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时,可能导致 max 和 min 的变化,需要重新计算一次 max 和 min。log 函数标准化通过以 10 为底的
3、log 函数转换的方法同样可以实现归一下,具体公式模型如下:网上很多介绍都只是 x*=log10(x),其实是有问题的,这个结果得到的数据不是都落到0,1区间上,应该还要除以 log10(max),max 为样本数据最大值,并且所有的数据都要大于等于 1。arctan 函数标准化通过三角函数中的反正切函数也可以实现数据的标准化转换,具体公式模型如下:使用这个方法需要注意的是如果原始数据的区间是属于正负实数的话,所得到的标准化后的去间为-1,1。若想只要0,1区间,数据都应该大于等于 0。Z 标准化(偏差法标准化)运用最多的数据标准化方法是基于统计理论的偏差标准化,也叫标准差标准化,经过处理的数
4、据符合标准正态分布,即均值为 0,标准差为 1,具体公式模型如下:数据的标准化前端时间有幸参加了公司的重点项目,项目主要是开发一个搜索引擎的内核,改搜索引擎除了基本搜索能力外,还具备一定的内容分类、语义分析等功能。其中引擎内核的数学模型中涉及到数据标准化的问题,这里我根据个人的一些经验,总结了一些有关数据标准化的方法。首先,数据标准化到底是什么?为什么要标准化?标准化后有什么好处?这些都是我刚接触这个词的时候的一些想法,相信第一次接触的人都会跟我一样。数据的标准化(normalization)是将数据按比例缩放,使之落入到一个小的特定区间。如果是落到 0-1 区间,也可以叫为数据归一化,也就是
5、说数据归一化其实是数据标准化的一种特殊情况(有点废话,=。=) 。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。数据标准化种最典型的就是数据的归一化处理,即将数据统一映射到0,1区间上,常见的数据归一化的方法有(要标准化到其他范围可以采用乘以一个相应的系数处理):最大值-最小值标准化也叫离差标准化,是对原始数据的线性变换,使结果落到0,1区间,具体公式模型如下:其中 max 为样本数据的最大值,min 为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时,可能导致 max 和 min 的变化,需要重新计算
6、一次 max 和 min。log 函数标准化通过以 10 为底的 log 函数转换的方法同样可以实现归一下,具体公式模型如下:网上很多介绍都只是 x*=log10(x),其实是有问题的,这个结果得到的数据不是都落到0,1区间上,应该还要除以 log10(max),max 为样本数据最大值,并且所有的数据都要大于等于 1。arctan 函数标准化通过三角函数中的反正切函数也可以实现数据的标准化转换,具体公式模型如下:使用这个方法需要注意的是如果原始数据的区间是属于正负实数的话,所得到的标准化后的去间为-1,1。若想只要0,1区间,数据都应该大于等于 0。Z 标准化(偏差法标准化)运用最多的数据标准化方法是基于统计理论的偏差标准化,也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为 0,标准差为 1,具体公式模型如下: