迁移学习.pptx-道客多多_道客多多docduoduo.com

资源描述

1、汇报内容,迁移学习,传统的机器学习,假设训练数据与测试数据服从相同的数据分布,在许多情况下，由于训练数据过期则不满足同分布的假设情况，我们不得不去标注新数据，但是标注新数据又非常昂贵。而且舍弃掉大量的不同分布下的过期数据又是很浪费的，在这种情况下，迁移学习变得非常重要，因为迁移学习是可以从现有数据中迁移知识，用来帮助将来的学习。,迁移学习,机器与人,迁移学习,传统的机器学习基于统计学习。统计学习虽然在其能力范围内显示出了很好的学习效果。但是，由于统计学习是基于数理统计，这就要求学习的知识和应用的问题必须具有相同的统计特征。于是，一般情况下，统计学习只能解决相同领域内、同一问题的学习，因为当学习

2、和应用的场景发生迁移后，统计特征往往发生改变，从而影响统计学习的效果。,然而，在现实生活中，人们在学习时，例如，我们在学习物理的时候，需要大量借助以往的数学基础。人在学习时，具有在不同领域、不同问题之间进行迁移转移的能力，这正是机器学习所缺乏的。而，这种知识在不同场景之间迁移转化的能力被称为迁移学习（Transfer Learning）,迁移学习,迁移学习是人的基本学习技能，但是迁移并不适用于每一件事情上，当两种学习在内容和方法上，或两种学习的刺激和反映无共同之处时，就不会有迁移作用的发生。若两种学习有共同因素时，就会产生迁移。共同因素越多，迁移作用就越大。,迁移学习,迁移学习的定义,NIPS

3、 2005对迁移学习给出了一个比较有代表性的定义：transfer learning emphasizes the transfer of knowledge across domains, tasks, and distributions that are similar but not the same. 翻译成中文就是说，迁移学习强调的是在不同但是相似的领域、任务和分布之间进行知识的迁移。即，给定源域DS和学习任务TS，一个目标域DT和学习任务TT，迁移学习致力于用DS和TS中的知识，帮助提高DT中目标预测函数fT()的学习。并且有DSDT或TSTT。,基于实例的迁移学习,如果训练数据

4、和测试数据的分布不同，传统的机器学习效果可能会非常差。正因为如此，我们希望能够设计出一种算法来针对训练数据和测试数据来自不同的数据源的情况。我们考虑这样的问题：,辅助域（数据多）,目标域（数据少）,不同分布,模型,测试数据,同分布,基于实例的迁移学习,基于Boosting的迁移学习算法,基本思想是，尽管辅助数据和目标数据或多或少会有些不同，但是辅助数据中应该还是会存在一部分比较适合用来训练一个有效的分类模型，并且适应测试数据。于是，我们的目标就是从辅助数据中找出那些适合测试数据的实例，并将这些实例迁移到目标数据的学习中去。,基于实例的迁移学习,具体来说，推广了传统的AdaBoost算法，使

5、之具有迁移学习的能力，从而能够最大限度的利用辅助数据来帮助训练目标的分类。关键的想法是利用boosting的技术来过滤掉辅助数据中那些与目标数据最不像的数据。其中，boosting的作用是建立一种自动调整权重的机制，于是重要的辅助数据的权重将会增加，不重要的辅助数据的权重将会减小。调整权重之后，这些带权重的辅助数据将会作为额外的训练数据，与目标数据一起从来提高分类模型的可靠度。于是，我们得到了一个新的boosting算法，称为Transfer AdaBoost，简称TrAdaBoost,基于实例的迁移学习,TrAdaboost算法原理,（1）初始化训练数据（每个样本）的权值分布：如果有N个样本

6、，则每一个训练的样本点最开始时都被赋予相同的权重：1/N。（2）训练弱分类器。具体训练过程中，如果某个样本已经被准确地分类，那么在构造下一个训练集中，它的权重就被降低；相反，如果某个样本点没有被准确地分类，那么它的权重就得到提高。同时，得到弱分类器对应的话语权。然后，更新权值后的样本集被用于训练下一个分类器，整个训练过程如此迭代地进行下去。（3）将各个训练得到的弱分类器组合成强分类器。各个弱分类器的训练过程结束后，分类误差率小的弱分类器的话语权较大，其在最终的分类函数中起着较大的决定作用，而分类误差率大的弱分类器的话语权较小，其在最终的分类函数中起着较小的决定作用。换言之，误差率低的弱分类

7、器在最终分类器中占的比例较大，反之较小。,基于实例的迁移学习,（d）TrAdaBoost算法通过增加误分类的目标数据的权重，同时减少误分类辅助数据的权重，来使得分类面朝正确的方向移动,基于实例的迁移学习,问题定义,定义(基本符号): Xa为辅助样例空间（auxiliary in-stance space），设Xb为目标样例空间（target instance space），也就是需要被分类的样例空间。设Y =0,1为类空间。在本工作中，我们将问题简化为两分类问题。对于多分类问题，可以很自然地从两分类问题推广得之。训练数据T(X=XbXa)Y是从目标样例空间和辅助样例空间中采集得来的。一个

8、概念c:XY，将样本xX映射到其真实的类标c(x)Y上去。,基于实例的迁移学习,问题定义,定义(测试数据集（未标注数据集）):其中，数据集S是未标注的，且k是集合S中的元素个数。训练数据集T可以划分为两个子集合：,基于实例的迁移学习,问题定义,定义(训练数据集):其中，c(x)是实例x的真实类标。Ta是辅助训练数据集，Tb是目标训练数据集。n和m分别是辅助训练数据集和目标训练数据集的大小。,基于实例的迁移学习,于是，合并起来的训练数据集T=(xi,c(xi)就可以定义如下：,至此，我们可以定义问题如下：给定一个很小的目标训练数据集Tb，大量的辅助训练数据Ta和一些未标注的测试数据集S，我们的

9、目标就是要训练一个分类器，尽可能减小S上的分类误差。,基于实例的迁移学习,基于实例的迁移学习,基于实例的迁移学习,实验分析,我们在三个文本数据集20 Newsgroups,SRAA和Reuters-21578上测试我们算法的效果。在本实验中，我们将TrAdaBoost算法与三个基准算法进行比较，分别是：(1)SVM，即简单的用SVM结合源训练数据Tb进行训练；(2) SVMt，即用SVM结合合并训练集T进行训练(3)AuxSVM，根据SVM的一种迁移学习方法。,基于实例的迁移学习,基于实例的迁移学习,基于实例的迁移学习,给出了当只有1%的目标数据是训练数据时，SVM, SVMt,AuxSVM和TrAdaBoost(SVM)的分类错误率。所有的结果都是随机取10次训练数据后的平均结果。迭代次数为100,表：当只有1%目标数据是训练数据时的分类错误率,基于实例的迁移学习,TrAdaBoost算法在people vs places数据集上的迭代曲线,基于实例的迁移学习,TrAdaBoost算法利用了迁移学习的思想，在解决小数据问题上具有着良好的效果，根据仿真结果可以看出，在迭代达到五十代左右的时候，曲线趋近平滑。同时可以看出当目标数据只有1%的时候，错误率也可以控制在21%左右，即，正确率可以达到80%。,

展开阅读全文