收藏 分享(赏)

中科院研究生院机器学习课程习题.doc

上传人:dreamzhangning 文档编号:2234215 上传时间:2018-09-06 格式:DOC 页数:5 大小:194KB
下载 相关 举报
中科院研究生院机器学习课程习题.doc_第1页
第1页 / 共5页
中科院研究生院机器学习课程习题.doc_第2页
第2页 / 共5页
中科院研究生院机器学习课程习题.doc_第3页
第3页 / 共5页
中科院研究生院机器学习课程习题.doc_第4页
第4页 / 共5页
中科院研究生院机器学习课程习题.doc_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

1、1、考虑回归一个正则化回归问题。在下图中给出了惩罚函数为二次正则函数,当正则化参数C取不同值时,在训练集和测试集上的log似然(mean log-probability) 。 (10分)(1)说法“随着C的增加,图2中训练集上的log似然永远不会增加”是否正确,并说明理由。(2)解释当C取较大值时,图2中测试集上的log似然下降的原因。2、考虑线性回归模型: ,训练数据如下图所示。 (10 分)201, yNwx(1)用极大似然估计参数,并在图(a)中画出模型。 (3 分)(2)用正则化的极大似然估计参数,即在 log 似然目标函数中加入正则惩罚函数 ,21Cw并在图(b)中画出当参数 C 取

2、很大值时的模型。 (3 分)(3)在正则化后,高斯分布的方差 是变大了、变小了还是不变?(4 分)2图(a) 图(b)2. 考虑二维输入空间点 上的回归问题,其中 在单位正方形内。12,Tx1,2jxj训练样本和测试样本在单位正方形中均匀分布,输出模型为,我们用 1-10 阶多项式特征,采用线性回归模型来3521210753, yNx学习 x 与 y 之间的关系(高阶特征模型包含所有低阶特征) ,损失函数取平方误差损失。(1) 现在 个样本上,训练 1 阶、2 阶、8 阶和 10 阶特征的模型,然后在一个大规模的独立的测试集上测试,则在下 3 列中选择合适的模型(可能有多个选项) ,并解释第

3、3 列中你选择的模型为什么测试误差小。 (10 分)训练误差最小 训练误差最大 测试误差最小1 阶特征的线性模型 X2 阶特征的线性模型 X8 阶特征的线性模型 X10 阶特征的线性模型 X(2) 现在 个样本上,训练 1 阶、2 阶、8 阶和 10 阶特征的模型,然后在一个大规模的610N独立的测试集上测试,则在下 3 列中选择合适的模型(可能有多个选项) ,并解释第 3 列中你选择的模型为什么测试误差小。 (10 分)训练误差最小 训练误差最大 测试误差最小1 阶特征的线性模型 X2 阶特征的线性模型8 阶特征的线性模型 X X10 阶特征的线性模型 X(3) 多项式回归模型的预测误差与训

4、练样本的数目有关。 (T)3、我们对下图(a)所示的数据采用简化的线性 logistic 回归模型进行两类分类,即。121212|, expYwgxwwxxP(为了简化,我们不采用偏差 。 )0训练数据可以被完全分开(训练误差为0,如图1(b)所示的 L1) 。(1) 考虑一个正则化的方法,即最大化。2121log|,Nii CywxP注意只有 被惩罚。则当 C 很大时,如图 1(b)所示的 4 个决策边界中, L2、L 3 和 L4 可2w(a) 2 维训练数据。 (b) 数据点可以被L 1(实线)完全分开。L 2、L 3和L 4是另外几个可能的决策边界。以通过正则 得到吗?2w答:L2 不

5、可以。当正则 w2 时,决策边界对 x2 的依赖越少,因此决策边界变得更垂直。而图中的 L2 看起来不正则的结果更水平,因此不可能为惩罚 w2 得到;L3 可以。w22 相对 w12 更小(表现为斜率更大) ,虽然该决策对训练数据的 log 概率变小(有被错分的样本) ;L4 不可以。当 C 足够大时,我们会得到完成垂直的决策边界(线 x1 = 0 或 x2 轴) 。L4 跑到了 x2 轴的另一边使得其结果比其对边的结果更差。当中等程度的正则时,我们会得到最佳结果(w2 较小)。图中的 L4 不是最佳结果因此不可能为惩罚 w2 得到;(2)如果正则项为 L1 范式,即最大化。12121log|

6、,Nii CywwxP则随着 C 增大,下面哪种情形可能出现(单选)? (a) 将变成 0,然后 也将变成 0。(T)1w2(b) 和 将同时变成 0。2(c) 将变成 0,然后 也将变成 0。1w(d) 两个权重都不会变成 0,只是随着 C 的增大而减小 0。该数据可以被完全正确分类(训练误差为0),且仅看x2的值(w1 = 0)就可以得到。虽然最佳分类器w1可能非0,但随着正则量增大w1会很快接近0。L1正则会使得w1完全为0。随着C 的增大,最终w2 会变成0。4、LDA 现有100个标注好的训练样本(共有两个类),我们训练以下模型:GaussI : 每类一个高斯分布,两个类的方差矩阵均

7、设为单位矩阵I;GaussX: 每类一个高斯分布,但协方差矩阵不做任何约束;LinLog: 线性logistic回归模型(特征的线性组合);QuadLog: 二次 logistic回归模型(所以特征的一次和二次组合)。训练后,我们用训练集上的平均log似然作为模型性能的度量,并用等式或不等式表示模型间的性能关系,如“model 1 = model 2” 或 “model 1 = model 2”GaussI = LinLog (both have logistic postiriors, and LinLog is the logistic model maximizing the avera

8、ge log probabilities)GaussX = QuadLog (both have logistic postiriors with quadratic features, and QuadLog is the model of this class maximizing the average log probabilities)LinLog = QuadLog (logistic regression models with linear features are a subclass of logistic regression models with quadratic

9、functions the maximum from the superclass is at least as high as the maximum from the subclass)GaussI = QuadLog (follows from above inequalities)(GaussX will have higher average log joint probabilities of examples and labels, then will GaussI. But have higher average log joint probabilities does not necessarily translate to higher average log conditional probabilities)一、 交叉验证1、4. 给定如下数据集,其中 为输入变量, 为输出变量。假设考虑采用 k-NN 算法XY对 对应的 进行预测,其中距离度量采用不加权的欧氏距离。 (12 分)xy(1)算法 1-NN 的训练误差的是多少?(用分类错误的样本数目表示即可,下同)(2)算法 3-NN 的训练误差是多少?(3)算法 1-NN 的 LOOCV(留一交叉验证)估计误差是多少? (4)算法 3-NN 的 LOOCV(留一交叉验证)估计误差是多少?

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 大学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报