1、第一讲 分类与回归问题,第一部分 分类问题 第二部分 回归问题,第一部分 分类问题,分类问题的描述 分类问题的类型 分类问题的求解方法,分类问题的描述,图1线性可分的两类问题,分类问题的描述,分类问题的描述,分类问题的描述,分类问题的描述,分类问题:根据给定的训练集,其中要求寻找 上的决策函数 以便能用决策函数 “较好地”推断任一模式相对应的 值。,从数学的角度看分类问题,已知: (1)函数的值域为有限个离散点 (2)函数在某些点上的函数值。 求解:寻找一个函数能较好地预测其他点上的函数值,注记,如何选择可选的函数类?丰富与简单之间的权衡 如何定义“较好地”?经验风险与置信风险的折中是连续函数
2、吗?定义域 如果不是 空间呢?比如 ;值域 取不同的值会否影响解?比如的连续化方法(值得研究)比如首先求一个从 到 的连续函数 ,然后再对其离散化,得到不连续的分类函数:,分类问题的类型,从类的多少角度:一类,二类,多类,可列无穷类;其中一类、二类是最基本的问题,因为其他可以通过它们来处理。 从类的线性可分角度:线性可分,线性不可分。 从类之间序关系的角度:有序分类,无序分类。,分类问题的求解方法,寻找每个类固有的特征:更适合于一类、多类问题。如大部分的图像识别技术。 寻找类之间的差异:更适合于两类问题。如支持向量机技术。 一点想法:从类的分布角度出发,可以考虑从概率密度函数来选择分类函数,也
3、可以考虑从势函数和混沌吸引子来选择分类函数。,第二部分 回归问题,回归问题的描述 回归问题的类型 回归问题的求解方法,回归问题的描述,回归问题的描述,回归问题的描述,回归问题:根据给定的训练集,其中要求寻找 上的决策函数 以便能用决策函数 “较好地”推断任一模式相对应的 值。,从数学的角度看分类问题,已知:(1)函数的值域为整个实数域;(2)函数在某些点上的函数值。 求解:寻找一个函数能较好地预测其他点上的函数值。,回归问题与分类问题的关系,分类: 回归: 因此回归可以看成是分类问题的推广,可以看成是类别数为不可数时的分类问题。但我们不能以此简单地认为回归问题比分类问题难,事实上由于回归问题的值域为整个实数域,常常更好处理。,注记,如何选择可选的函数类?丰富与简单之间的权衡 如何定义“较好地”?经验风险与置信风险的折中 定义域 如果不是 空间 呢?比如 的连续化方法(值得研究),回归问题的类型,线性回归问题 非线性回归问题,回归问题的求解方法,插值方法 曲线拟合方法最小二乘法: 偏差平方和最小最小带:偏差最大最小(可以变为两 类问题求解),插值与拟合,结束,