机器学习入门机器学习入门 (39).pdf

相关 举报
资源描述
目 录 7反向传播过程8搭建神经网络9神经网络的优化全连接神经网络的应用106前向传播过程神经网络的优化099.1 学习率的优化 学 习 率 learning_rate: 表 示 了 每 次 参 数 更 新 的 幅度 大 小 。 在 训 练 过 程 中 , 参 数 的 更 新 向 着 损 失 函 数 梯 度 下 降 的方 向 。 【例题】u沿 着 负 梯 度 方 向 进 行 下 一 步 探 索 , 前 进 多 少 合 适 ?u用 梯 度 乘 以 学 习 率 ( 有 时 也 称 为 步 长 ) , 以 确 定 下 一 个 点 的 位置 。例 如 : 如 果 梯 度 大 小 为 2.5, 学 习 速 率 为 0.01, 则 梯 度 下 降 法 算 法会 选 择 距 离 前 一 个 点 0.025 的 位 置 作 为下 一 个 点 。次数参数W计算1次5 5 - 0 .2 * (2 * 5 + 2 ) = 2 .6 2次2 .6 2 .6 - 0 .2 * (2 * 2 .6 + 2 ) = 1 .1 6 3次1 .1 6 1 .1 6 0 .2 * (2 * 1 .1 6 + 2 ) = 0 .2 9 6 4次0 .2 9 6 损 失 函 数 loss = (w + 1)2的 图 像 为 : 由图可知,损失函数loss的最小值会在(-1 ,0 )处得到,此时损失函数的导数为0 ,得到最终参数w = -1。学习率过大和过小学 习 率 过 小 : 收 敛 速 度 慢 学 习 率 过 大 : 震 荡 不 收 敛学习率:有效选取 【 实 践 】 将 待 优 化 的 参 数 W设 置 为 5, 损 失 函 数 设 为 (w+1)2 ,使 用 梯 度 下 降 算 法 , 将 学 习 率 设 为 0.2, 迭 代 40轮 , 得 到 结 果 。 由结果可知,随着损失函数值的减小,w无限趋近于-1,模型计算推测出最优参数w = -1。 After 3 0 steps: w is -0 .9 9 9 9 9 9 , loss is 0 .0 0 0 0 0 0 .After 3 1 steps: w is -1 .0 0 0 0 0 0 , loss is 0 .0 0 0 0 0 0 .After 3 2 steps: w is -1 .0 0 0 0 0 0 , loss is 0 .0 0 0 0 0 0 .After 3 3 steps: w is -1 .0 0 0 0 0 0 , loss is 0 .0 0 0 0 0 0 .After 3 4 steps: w is -1 .0 0 0 0 0 0 , loss is 0 .0 0 0 0 0 0 .After 3 5 steps: w is -1 .0 0 0 0 0 0 , loss is 0 .0 0 0 0 0 0 .After 3 6 steps: w is -1 .0 0 0 0 0 0 , loss is 0 .0 0 0 0 0 0 .After 3 7 steps: w is -1 .0 0 0 0 0 0 , loss is 0 .0 0 0 0 0 0 .After 3 8 steps: w is -1 .0 0 0 0 0 0 , loss is 0 .0 0 0 0 0 0 .After 3 9 steps: w is -1 .0 0 0 0 0 0 , loss is 0 .0 0 0 0 0 0 . 将 学 习 率 修 改 为 1:由 结 果 可 知 , 参 数 w值 在 波 动 , 不 收 敛 。 After 3 0 steps: w is -7 .0 0 0 0 0 0 , loss is 3 6 .0 0 0 0 0 0 .After 3 1 steps: w is 5 .0 0 0 0 0 0 , loss is 3 6 .0 0 0 0 0 0 .After 3 2 steps: w is -7 .0 0 0 0 0 0 , loss is 3 6 .0 0 0 0 0 0 .After 3 3 steps: w is 5 .0 0 0 0 0 0 , loss is 3 6 .0 0 0 0 0 0 .After 3 4 steps: w is -7 .0 0 0 0 0 0 , loss is 3 6 .0 0 0 0 0 0 .After 3 5 steps: w is 5 .0 0 0 0 0 0 , loss is 3 6 .0 0 0 0 0 0 .After 3 6 steps: w is -7 .0 0 0 0 0 0 , loss is 3 6 .0 0 0 0 0 0 .After 3 7 steps: w is 5 .0 0 0 0 0 0 , loss is 3 6 .0 0 0 0 0 0 .After 3 8 steps: w is -7 .0 0 0 0 0 0 , loss is 3 6 .0 0 0 0 0 0 .After 3 9 steps: w is 5 .0 0 0 0 0 0 , loss is 3 6 .0 0 0 0 0 0 . 将 学 习 率 修 改 为 0.0001: 由结果可知,损失函数loss值缓慢下降,w值也在小幅度变化,收敛缓慢。 After 3 0 steps: w is 4 .9 6 2 9 0 8 , loss is 3 5 .5 5 6 2 7 4 .After 3 1 steps: w is 4 .9 6 1 7 1 6 , loss is 3 5 .5 4 2 0 5 3 .After 3 2 steps: w is 4 .9 6 0 5 2 3 , loss is 3 5 .5 2 7 8 3 6 .After 3 3 steps: w is 4 .9 5 9 3 3 1 , loss is 3 5 .5 1 3 6 2 6 .After 3 4 steps: w is 4 .9 5 8 1 3 9 , loss is 3 5 .4 9 9 4 2 0 .After 3 5 steps: w is 4 .9 5 6 9 4 7 , loss is 3 5 .4 8 5 2 2 2 .After 3 6 steps: w is 4 .9 5 5 7 5 6 , loss is 3 5 .4 7 1 0 2 7 .After 3 7 steps: w is 4 .9 5 4 5 6 5 , loss is 3 5 .4 5 6 8 4 1 .After 3 8 steps: w is 4 .9 5 3 3 7 3 , loss is 3 5 .4 4 2 6 5 4 .After 3 9 steps: w is 4 .9 5 2 1 8 3 , loss is 3 5 .4 2 8 4 7 8 .指 数 衰 减 学 习 率 指 数 衰 减 学 习 率 : 学 习 率 随 着 训 练 轮 数 变 化 而 动 态 更 新 。 【 例 题 】 修 改 前 面 的 例 题 , 模 型 训 练 过 程 不 设 定 固 定 的 学习 率 , 使 用 指 数 衰 减 学 习 率 进 行 训 练 。 其 中 , 学 习 率 初 值 设置 为 0.1, 学 习 率 衰 减 率 设 置 为 0.99。 After 3 0 steps: global step is 3 1 .0 0 0 0 0 0 ,w is -0 .9 8 3 2 8 1 ,learning rate is 0 .0 7 3 2 3 0 ,loss is 0 .0 0 0 2 8 0 .After 3 1 steps: global step is 3 2 .0 0 0 0 0 0 ,w is -0 .9 8 5 7 3 0 ,learning rate is 0 .0 7 2 4 9 8 ,loss is 0 .0 0 0 2 0 4 .After 3 2 steps: global step is 3 3 .0 0 0 0 0 0 ,w is -0 .9 8 7 7 9 9 ,learning rate is 0 .0 7 1 7 7 3 ,loss is 0 .0 0 0 1 4 9 .After 3 3 steps: global step is 3 4 .0 0 0 0 0 0 ,w is -0 .9 8 9 5 5 0 ,learning rate is 0 .0 7 1 0 5 5 ,loss is 0 .0 0 0 1 0 9 .After 3 4 steps: global step is 3 5 .0 0 0 0 0 0 ,w is -0 .9 9 1 0 3 5 ,learning rate is 0 .0 7 0 3 4 5 ,loss is 0 .0 0 0 0 8 0 .After 3 5 steps: global step is 3 6 .0 0 0 0 0 0 ,w is -0 .9 9 2 2 9 7 ,learning rate is 0 .0 6 9 6 4 1 ,loss is 0 .0 0 0 0 5 9 .After 3 6 steps: global step is 3 7 .0 0 0 0 0 0 ,w is -0 .9 9 3 3 6 9 ,learning rate is 0 .0 6 8 9 4 5 ,loss is 0 .0 0 0 0 4 4 .After 3 7 steps: global step is 3 8 .0 0 0 0 0 0 ,w is -0 .9 9 4 2 8 4 ,learning rate is 0 .0 6 8 2 5 5 ,loss is 0 .0 0 0 0 3 3 .After 3 8 steps: global step is 3 9 .0 0 0 0 0 0 ,w is -0 .9 9 5 0 6 4 ,learning rate is 0 .0 6 7 5 7 3 ,loss is 0 .0 0 0 0 2 4 .After 3 9 steps: global step is 4 0 .0 0 0 0 0 0 ,w is -0 .9 9 5 7 3 1 ,learning rate is 0 .0 6 6 8 9 7 ,loss is 0 .0 0 0 0 1 8 .由 结 果 可 以 看 出 , 随 着 训 练 轮 数 增 加 学 习 率 在 不 断 减 小 , 损 失 函 数也 在 不 断 减 小 , 逐 渐 趋 近 收 敛 。 9.2 滑动平均1. MOVING_AVERAGE_DECAY表 示 滑 动 平 均 衰 减 率 , 一 般 会赋 接 近 1的 值 ;2. global_step表 示 当 前 训 练 了 多 少 轮 。 【例题】在 神 经 网 络 模 型 中 , 将 MOVING_AVERAGE_DECAY设 置 为 0.99, 参 数 w1设 置 为 0, w1的 滑 动 平 均 值 设 置 为 0。 【例题】1. 开 始 时 , 轮 数 global_step设 置 为 0, 参 数 w1更 新 为 1, 则 w1的 滑动 平 均 值 为 : w1滑 动 平 均 值 =min(0.99,1/10)*0+(1 min(0.99,1/10)*1 = 0.9 2. 当 轮 数 global_step设 置 为 100时 , 参 数 w1更 新 为 10,global_step保 持 为 100, 每 次 执 行 滑 动 平 均 操 作 影 子 值 更 新 , 则 滑动 平 均 值 变 为 : w1滑 动 平 均 值 =min(0.99,101/110)*0.9+(1 min(0.99,101/110)*10 = 0.826+0.818=1.644 3. 再 次 运 行 , 参 数 w1更 新 为 1.644, 则 滑 动 平 均 值 变 为 : w1滑 动 平 均 值 =min(0.99,101/110)*1.644+(1 min(0.99,101/110)*10 = 2.328 4. 再 次 运 行 , 参 数 w1更 新 为 2.328, 则 滑 动 平 均 值 : w1滑 动 平 均 值 =2.956 5. 随 后 每 执 行 一 次 , 参 数 w1的 滑 动 平 均 值 都 向 参 数 w1靠 近 。 可见 , 滑 动 平 均 追 随 参 数 的 变 化 而 变 化 。 滑 动 平 均 模 型 , 就 是 每 次 用 参 数 的 滑 动 平 均 值 作 为 参数 的 新 值 , 这 样 通 过 控 制 衰 减 率 来 控 制 参 数 更 新 前 后之 间 的 差 距 , 从 而 达 到 减 缓 参 数 的 变 化 值 的 目 的 , 从而 可 以 使 得 模 型 在 测 试 数 据 上 更 健 壮 。总结9.3 过拟合 过 拟 合 : 神 经 网 络 模 型 在 训 练 数 据 集 上 的 准 确 率 较 高 , 在 新 的 数 据 进 行 预测 或 分 类 时 准 确 率 较 低 , 说 明 模 型 的 泛 化 能 力 差 。 正 则 化 : 在 损 失 函 数 中 w的 正 则 项 , 减 小 过 拟 合 。 使 用 正 则 化 后 , 损 失 函 数 loss变 为 两 项 之 和 : loss = loss(y与 y_) + REGULARIZER*loss(w) 9.4 正则化计算方法: L1正 则 化 : = | | = | | L1正 则 化 :感 谢 聆 听 !
展开阅读全文
相关搜索
收藏 分享(赏)
温馨提示:
道客多多所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。

当前位置:首页 > 高等教育 > 大学课件


本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报