ImageVerifierCode 换一换
格式:PDF , 页数:16 ,大小:1.46MB ,
资源ID:10397722      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-10397722.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(Matlab机器学习02.pdf)为本站会员(精品资料)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

Matlab机器学习02.pdf

1、机器学习快速入门在机器学习中,极少能够自始至终一帆风顺您将会发现自己始终在 改变和尝试各种不同思路和方法。本章介绍系统化机器学习工作流程, 重点介绍整个流程中的一些关键决策点。极少一帆风顺3机器学习快速入门大多数机器学习挑战都与数据处理和查找正确的模型相关。 数据会以各种形式和大小出现。 真实数据集可能比较混乱、不完整, 并且采用各种不同格式提供。您可能只有简单的数值型数据。但有时您 要 合 并 多 种 不 同 类 型 的 数 据 ,例 如 传 感 器 信 号 、文 本 ,以 及 来 自 于 相 机 的图像数据流。预处理数据可能需要掌握专业知识和工具。 例 如 ,对 象 检 测 算 法 训 练

2、 中的特征选取,需要掌握图像处理领域的专业知识。不同类型的数据 需要采用不同的预处理方法。找到拟合数据的最佳模型需要时间。 如何选择正确的模型是一项平衡 过程。高度灵活的模型由于拟合了噪声的细微变化而造成了过度拟合。 另一方面,简单的模型可能要有更多的假设条件。这些始终是在模型 速度、准确性和复杂性之间权衡取舍。 听起来很让人望而生畏?不要泄气。要记住,反复尝试和出错才是机器学习的核心如果一个方法或算法不起作用,只需尝试另一个。但系统化工作流程有助于创造一个顺利的开端。 机器学习的挑战4机器学习快速入门监督式学习 无监督学习机器学习回归分类开始之前需要考虑的问题每个机器学习工作流程都从以下三个

3、问题开始: 您要处理哪种类型的数据? 您想要从中获得哪些洞察力? 这些洞察力将如何应用以及在哪里应用?回答这些问题有助于确定您采用监督式学习还是无监督学习。 在以下情况下选择监督式学习:您需要训练模型进行预测 (例如温度和股价等连续变量的未来值)或者分类(例如 根据网络摄像头的录像片段确定汽车的技术细节)。在以下情况下选择无监督学习:您需要深入了解数据并希望训练模型找到好的内部表示形式,例如将数据拆分到集群中。 5机器学习快速入门6. 将经过最佳训练的模型集成到生产系统中。5. 通过迭代找到最佳模型。4. 使用第 3 步推导的特征训练模型。3. 使用预处理数据推导特征。2. 预处理数据。1.

4、访问和加载数据。工作流程概览在接下来的章节中,我们将以健康监控应用程序为例更详细地介绍具体 步 骤 。整 个工 作 流 程 将 在 MATLAB中完成。6机器学习快速入门训练模型对身体活动进行分类本示例基于手机的健康监控应用程序。输入数据包含通过手机的加速计 和 陀 螺 仪 提 供 的 三 轴 传 感 器 数 据 。获 得 的 响 应( 或 输 出 )为 日 常 的 身体活动,例如步行、站立、跑步、爬楼梯或平躺。 我们希望使用输入数据训练分类模型来识别这些活动。由于我们的目标是分类,因此我们将应用监督式学习。经过训练的模型(或分类器)将被集成到应用程序中,帮助用户跟踪记录全天的身体运动水平。

5、机器学习7机器学习快速入门1步骤 1:加载数据要加载加速计和陀螺仪的数据,我们要执行以下操作:1. 手持手机坐下,记录手机的数据,然后将其存储在 标 记 为“坐”的 文 本 文件 中。 2. 手持手机站着,记录手机的数据,然后将其存储在第 二个标 记 为“站 立”的 文 本 文件 中。3. 重 复 上 述 步 骤 ,直 到 我 们 获 得 希 望 分 类 的 每 个 活 动 的 数 据 。我们将标记的数据集存储在文本文件中。诸如文本或 CSV 等平面文件 格 式 更 易 于 处 理 ,可 以 直 接 导 入 数 据 。 机器学习算法还不够智能,无法辨别噪声和有价值的信息之间的差异。使用数据进行

6、训练之前,我们需要确保数据简洁和完整。 8机器学习快速入门2步骤 2:预处理数据我们将数据导入 MATLAB,然后为每个带有标签的数据集绘图。 要预处理数据,我们可以执行以下操作:1. 查找位于绝大多数数据所在范围之外的异常值数据点。 我们必须确定异常值能否忽略或者它们是否表示模型应该考虑的现象。 在我们的示例中,可以安全地将其忽略掉(这些异常值是我们记录数据时 无 意 中 移 动 所 产 生 的 结 果 )。2. 检查是否有缺失值(在记录期间我们可能会因为断开连接而丢失数据)我 们 可 以 简 单 地 忽 略 这 些 缺 失 值 ,但 这 会 减 少 数 据 集 的 大 小 。 或者,我们可

7、以通过插值或使用其他示例的参照数据来作为 缺失值的近似。原始数据 异常值活动跟踪记录数据中的异常值。在 许 多 应 用 程 序 中 ,异 常 值 提 供 了 关 键 信 息 。例 如 ,在 信 用 卡欺诈检测应用程序中,它们表示超出客户常规购买模式的购买行为。9机器学习快速入门2步骤 2:预处理数据 (续)3. 从加速计数据中删除重力效应数据,这样我们的算法就能专注处理物体的移动情况,而非手机的移动情况。我们通常使用简单的高通滤波器(例如双二阶滤波器)来处理此问题。 4. 将数据分为两组。我们保存部分数据用于测试(测试组), 将其余数据(训练组)用于构建模型。这种方法被称为保留方法,是一种有用

8、的交叉验证技术。使用建模过程中未使用过的数据测试模型,您就能了解模型如何处理未知数据。 10机器学习快速入门3步骤 3:推导特征推导特征(也称为特征工程或特征提取)是机器学习中最为重要的部分之一。此过程可将原始数据转换为机器学习算法可以使用的信息。 作为活动跟踪记录者,我们希望提取那些捕获了加速计数据的频谱的特征。这些特征将会帮助算法区分步行(低频)和跑步(高频)。我们创建了一个包含选定特征的新表。使用特征选择执行以下操作: 提高机器学习算法的准确性 提升高维数据集的模型性能 提高模型的可解释性 防止过度拟合 11机器学习快速入门3数据类型 特征选择任务 技术传感器数据 从原始传感器数据中提取

9、信号属性以生成更高级别的信息 峰值分析 执行 FFT( 快 速 傅 立 叶 变 换 ),然 后 确 定 主 导 频 率脉冲和转换指标 推导出信号特征,例如上升时间、下降时间和稳定时间频谱测量 绘图信号功率、带宽、平均频率和中值频率图像和视频数据 提取边缘位置、分辨率和颜色等特征。视觉关键词袋 为诸如边缘、角和斑点等局部图像特征创建直方图方向梯度直方图 (HOG) 为局部梯度方向创建直方图最小值特征值算法 检测图像上的角位置边缘检测 识别亮度发生急剧变化的点事务处理数据 计算增强数据信息的派生值时间戳分解 将时间戳分解为诸如天和月等分量汇总值计算结果 创建更高级别的特征,例如特殊事件发生的总次数

10、步骤 3:推导特征 (续)您可以推导出的特征数量只会受您的想象力限制。然而,我们通常可以采用许多技术来处理不同类型的数据。12机器学习快速入门4步骤 4:构建和训练模型构建模型时,最好先从构建简单模型开始;这样可以更快的运 行并且更易于解释。 我们从构建基本决策树开始。 为了了解决策树的执行情况,我们绘制了混淆矩阵,该表将模型产生的分类与我们在步骤 1 中创建的实际分类标签进行了比较。坐站立 步行跑步 跳舞feat53=335.449feat3=2.50002 feat56=12686feat11=0.45真正的类坐坐站立站立步行步行跑步跑步跳舞跳舞99%99%99%93%59%40%99%9

11、9%98%97%92%6%1%1%2%1% 1%1% 1%99%99%99%98%96%3%1%1%1%1% 1%1% 2%1%真正的类坐坐站立站立步行步行跑步跑步跳舞跳舞预测的类14机器学习快速入门5步骤 5:改进模型可通过两种不同方式改进模型:简化模型或增加模型的复杂度。 简化首先,我们要找机会减少特征的数量。热门的特征减少技术包括: 相关矩阵 可显示变量之间的关系,因此可以删除并非高度相关 的 变 量( 或 特 征 )。 主分量分析 (PCA) 可消除冗余,具体方法是找到一组捕 获了原始特征的关键区别的特征,并推导出数据集中存 在的强模式。 序列特征减少 采用迭代的方式减少模型的特征,直

12、到无法改进模型性能为止。 接下来,我们寻找方法来简化模型本身。我们可以通过以下方式实现: 修剪决策树的分支 从集成结构中删除学习器一个好的模型应该只包含预测能力最强的特征。具有很好泛化能力的简单模型要由于泛化能力较弱或未能完善训练处理新数据的复杂模型。 在机器学习中,和许多其他计算流 程一样,经过简化的模型更易于理解、 更 稳 健 、计 算 效 率 更 高 。 15机器学习快速入门5增加复杂度如果我们的模型由于过度泛化而无法区分步行和跑步,我们就需 要寻找新方法来进一步完善该模型。我们可以通过以下方式实现: 使用模型组合 将多个简单的模型组合成强模型, 这样提供的数据趋势要优于其中任何一个简单

13、模型单 独提供的趋势。 添加更多数据源 查看陀螺仪和加速计的数据。陀螺仪 记录活动期间手机所处的方向。此数据可提供不同活动 的唯一标志,例如,可能存在一个跑步所独有的加速度和 旋转的组合。对模型进行调整后,我们使用预处理期间保留的测试数据验证 其性能。 如果模型能够在测试数据集上对活动实现可靠的分类,我们就能将 其应用到手机上,开始跟踪记录。 步骤 5:改进模型 (续)准备更深入地钻研?查看这些资源以深入了解有关机器学习方法、 示例和工具的更多信息。观看机器学习一点通 34:34使用信号处理和机器学习进行传感器数据分析 42:45阅读监督式学习工作流程和算法运用 MATLAB 分析而获得的数据

14、驱动洞察力:能量负荷预测案例研究深入了解应用 MATLAB 的机器学习示例使用分类学习器应用程序进行数据分类 2017 The MathWorks, Inc. MATLAB and Simulink are registered trademarks of The MathWorks, Inc. See for a list of additional trademarks. Other product or brand names may be trademarks or registered trademarks of their respective holders.93115v 00 了解更多

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报