1、1. 机器学习问题模式识别和任意非线性函数的回归估计是当前人工智能领域研究的重点,它们都是从观测数据(训练样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。这两类问题在统计学中属于统计推断的研究范畴,称为预知性学习问题,现在我们一般称为机器学习(Machine Learning)问题。根据观测数据(训练样本)来推断一个未知系统的输入输出依赖关系,这无疑有极大的理论意义和实践意义,但由于系统的未知性和观测数据的有限性,因此它也是一个十分困难的问题。关于机器学习目前还没有被统一接受的理论框架。其研究发展大致经历了三个阶段,相应的实现方法的也大致可以分为三类 1:第一种方法是经典的
2、(参数)统计估计方法。统计估计的研究最早可以上溯到 200 多年前的高斯与拉普拉斯的最小二乘法和最小模法,然而直到 20 世纪 20 年代晚期在这方面才真正开始系统的研究。那时的主要命题是“给定一个来自某一函数依赖关系的经验数据集,推断这一函数依赖关系”。在 20 世纪 30 到 60 年代,古典的统计估计理论和方法获得了充分的发展,形式上日臻完美,亦获得一些成功的应用。参数估计方法中,参数的相关形式是已知的,训练样本用来对模型的参数进行估计。这种方法需要知道样本的分布形式,同时基于传统统计学理论的参数估计方法是一种隐含了样本数目无穷大的渐进理论。但实际问题中样本的有限性使得基于传统统计学理论
3、的一些学习方法在实际表现中差强人意。第二种方法是如人工神经网络(ANN)等基于经验的非线性方法。20 实际 60 年代以后,计算机的速度和性能有了很大提高,人们希望用参数统计估计方法解决高维复杂问题,但却遇到了随参数数目的增加,对计算资源的需求呈指数上升引起的组合爆炸问题。在这种背景下,首先是模式识别领域展开了启发式学习算法的研究,由此导致了感知机和 BP(误差反向传播)神经网络的出现。神经网络直接从观测数据学习,无需事先知道样本的分布形式,直接利用已知样本建立非线性模型,克服了传统参数估计方法的困难。但是这种方法其本质也是建立在样本数无穷大的经典统计学理论基础上,同时它是一种启发式技术,缺乏
4、指导工程实践的坚实理论基础。神经网络的设计是否成功与设计者在所设计领域的经验与先验知识密切相关,因此缺乏通用性。第三种方法是统计学习理论 2( Statistical Learning Theory,SLT)。20 世纪 70 年代末,Vapnik 和 Chervonenkis 的研究所取得的突破性进展导致了现代意义上的统计学习理论的建立,这就是人们目前所称的 VC 理论 3。与传统统计学方法相比,统计学习理论是一种专门研究小样本情况下机器学习规律的理论,它建立在一套较坚实的理论基础之上,为解决有限样本学习问题提供了一个统一的框架。它对有限样本情况下模式识别中的一些根本性问题进行了系统的理论研
5、究,在很大程度上解决了模型选择与过学习问题、非线性和维数灾难问题、局部极小点问题等;到九十年代中期,随着其理论的不断发展和成熟,也由于神经网络等学习方法在理论上缺乏实质性的进展,统计学习理论开始受到越来越广泛的重视。在此基础之上,一种能够克服人工神经网络局限性的更强有力的通用学习方法支持向量机(Support Vector Machine,SVM )方法被提出,并在实际应用方面取得了大量成果。在模式识别方面,SVM 已经单独用于手写体的识别 4,目标识别 5,扬声器辨别 6,图像处理方面的脸谱识别 7,以及字符分类 8等。在回归估计方面,SVM 被成功地应用于波士顿住房问题 9、PET 算子倒置问题10、时间序列的预测研究 11、非线性建模与预测 12,13、优化控制 14,15等方面的研究。在密度估计 16和方差分解 17方面,人们也进行了初步的研究。在很多情况下,SVM 的推广能力(即对测试样本的错误率)都已经高于或达到现有的其他方法。一些学者认为,SLT 和 SVM 正在成为继神经网络研究之后新的研究热点,并将有力地推动机器学习理论和技术的发展 18。