收藏 分享(赏)

机器学习基本算法介绍(提交版).ppt

上传人:精品资料 文档编号:10714330 上传时间:2019-12-30 格式:PPT 页数:29 大小:3.03MB
下载 相关 举报
机器学习基本算法介绍(提交版).ppt_第1页
第1页 / 共29页
机器学习基本算法介绍(提交版).ppt_第2页
第2页 / 共29页
机器学习基本算法介绍(提交版).ppt_第3页
第3页 / 共29页
机器学习基本算法介绍(提交版).ppt_第4页
第4页 / 共29页
机器学习基本算法介绍(提交版).ppt_第5页
第5页 / 共29页
点击查看更多>>
资源描述

1、,主讲人,weibo,罗 青,小青青_Lo,机器学习与数据挖掘基本算法介绍,sina,目录,1,2,3,4,监督学习模型算法,模型检验和评估,优化算法,数据筛选与预处理,监督学习算法,算法,原理,代码,应用,1,2,3,4,神经网络,决策树,贝叶斯,SVM,优缺点,学习系统,两大步骤:获取经验和学以致用,学习系统模型,应对外部环境的刺激输入,在实践的过程中不断学习,获取经验知识,并且运用我们所学到的经验知识指导我们日常生活实践,通过实践效果的反馈,也就是在实践过程中获得经验教训,从而不断更新我们的阅历知识,在以后的生活中,将自己的经验知识学以致用。,监督学习模型,以鸿翔买西瓜为例 样本:西瓜

2、输入:特征向量(大小、色泽、声响、产地) 输出:甜不甜,水分多不多 判断西瓜好坏依据:以往买西瓜的经验教训,训练数据: 特征向量目标向量 测试数据: 特征向量输出向量,神经网络拓扑结构图,输入:特征向量(x1,x2,xi,xn) 输出:结果向量(y1,y2,yk,ym),BP神经网络,环 境,实践学习,知识库,执行与评价,输入向量,网络权阵 结点阈值,输出向量,目标向量,误差改正,激励函数训练,二值函数 S形函数 双曲正切函数,更新知识库,返回重新实践学习,学习模型获取知识(经验方法),神经网络模型获取知识(经验方法),输入层,隐含层,输出层,神经网络应用实例图像分类,航空影像图,分类结果图,

3、输入特征向量:第i分量表示样本多边形第i波段的平均灰度值(RGB) (R1,G1,B1) (R2,G2,B2) (R3,G3,B3) (Rn,Gn,Bn)-特征向量 输出向量:第k分量表示样本多边形属于第k类的概率(1,0,0,0) (0,1,0,0) (1,0,0,0) -训练样本目标向量(0.5, 0.2, 0.6, 0.3) (0.13, 0.88, 0.12,0.4) -测试样本实际输出,神经网络应用实例-新闻分组,输入特征向量:每一个关键词在文中出现频次组成特征向量(23,18,20,30,10,0,4,2,3,.) 输出向量:第k个分量是新闻稿属于第k个主题的概率训练目标向量:(1

4、,0,0,0)实际输出:(0.5,0.6,0.7,0.2),BP神经网络代码实现,决策树应用实例-给高鑫找对象,决策树算法,算法思想 寻找合适变量,使得拆分的两个数据集合在混杂程度上能够尽可能小。熵 意义:描述集合的混杂度 公式: entropy = =1 2 信息增益 意义:当前熵与两个新群组经加权平均后的熵之间的差值。 公式:gain = ent - ent left + ent right (1),决策树代码,性别, 年龄, 长相, 品性 A女, 20, 良好, 一般 yes B女, 24, 漂亮, 良好 yes C女, 26, 一般, 良好 no D女, 28, 漂亮, 良好 no E

5、男, 22, 漂亮, 良好 no,贝叶斯-以疾病诊断为例,贝叶斯公式 P(A|B)=P(A)P(B|A)/P(B) P(Disease|Symptom)= P(Disease)* P(Symptom|Disease)/ P(Symptom)先验概率 根据以往的经验和分析得到的概率 患病概率P(Disease)和显现某种症状P(Symptom)通过统计病例库获得后验概率 得到“结果”的信息后重新修正的概率 P(Symptom|Disease)通过统计确诊病例库患某种病显现某种症状的概率获得前提假设(朴素贝叶斯) 各个特征之间应该是相互独立的 如果疾病1显现症状A时,很大可能显现症状B,则症状AB

6、之间就是相互依赖的关系。,朴素贝叶斯垃圾邮件过滤,问题描述 给定一封邮件,判定它是否属于垃圾邮件 前提假设:各单词之间相互独立公式推导 P(h+|D) = P(h+) * P(D|h+) / P(D) P(h-|D) = P(h-) * P(D|h-) / P(D) P(D|h+) = P(d1,d2,dn|h+) P(D|h+) = P(d1|h+) * P(d2|d1, h+) * P(d3|d2,d1, h+) * P(D|h+) = P(d1|h+) * P(d2|h+) * P(d3|h+) * P(di|h+)为单词di 在垃圾邮件中出现的频率,支持向量机-SVM,基本原理通过一些

7、支持向量(H1、H2上的点数据)确定一个分类平面H,使得数据分成两类,甚至多类。,优点-适用小样本,高维特征数据分类,各监督学习算法比较,模型检验评估,交叉验证 方法:将已知类别信息的样本数据分为k份,k-1份用来作为训练样本数据训练出模型,一份作为测试数据测试模型的好坏 检测指标:分类准确率、混淆矩阵、kappa系数等A/B测试 方法:建立一个测试页面,测试页面与原有页面前端相似,但是后端测试页面采用新的推荐算法,而原有页面没有推荐算法或是旧算法 检测指标:点击率,转化率等,非监督学习,物以类聚,人以群分 描述聚类点:特征向量 相似性衡量:欧式距离法、皮尔逊相关系数法 聚类法则:Kmeans

8、,系统聚类舞会party的抱团 特征向量:每个人的喜好向量 欧式距离:喜好向量的欧式距离 聚类法则:kmeans,优 化 算 法,数学模型 x| min f x ,xD 在解空间D中寻找使得f(x)值最小的x。主要步骤 描述题解 目标函数 搜索题解,搜 索 策 略,优化算法搜索策略比较,优化举例图像二值化,问题描述 将一副灰度图像分为前景和背景的黑白图像描述题解 灰度取值为0,255的整数值目标函数 f(g)= 类内方差/类间方差 类间方差越大,类内方差越小,目标函数值越小,其分割的前景和背景对比度越大,二分图像质量越好。搜索策略 穷举0,255,或者按照进化计算,蚁群算法等,遗传进化,遗传进

9、化实例 大学聚会安排最优出行方案,问题描述 大学同学回长沙聚会,为大家安排时间成本和金钱花销最少的车次序列描述题解 假设每个同学从出发点到长沙都有6趟的车次。编号为0,1,2,3,4,5 所有同学车次序列:10345253(基因片段, 其长度为人数)目标函数 F(x)=a*价格+b*旅行时间+c*等待时间+d*(出发时间-12) a+b+c+d=1搜索策略 选择、交叉、变异,有效数据才是王道-数据预处理,数据抽样 样本量足够 无偏 样本数据能反映总体数据数据整理 清除无效数据,使其噪音小 图像去噪增强处理,高分影像分类的多尺度分割 文本分类的分词以及关键词筛选特征提取 针对具体应用,抽取能反映

10、样本的本质特征 图像处理最主要是颜色信息,其次是形状信息 文本处理一般以关键词的频次,距离作为特征,Review-know how to use,机器学习系统模型 监督学习的输入输出 各种算法的优缺点和适应场景 算法模型的评价和验证 数据的筛选和解读,Questions,机器学习系统主要的维度有哪几个? 机器学习系统有效最关键的步骤是什么? 机器学习的主要步骤是什么? 少量粗糙的数据+复杂的算法? 大量有效的数据+简单的算法? 如何进行数据筛选? 如何进行数据的解读? 机器学习在web应用中最关键的是什么? 机器学习相关应用存在的机遇和挑战,比如推荐系统存在的困境?,机器学习基本算法介绍笔记 非码农也能看懂的机器学习 神经网络-空间信息智能处理 决策树-集体智慧编程 数学之美番外篇:平凡而又神奇的贝叶斯方法 支持向量机详细讲解 如何做好推荐算法?有哪些常见的错误需要避免?,参考资料,集体智慧编程Toby Segaran,机器学习(美)Tom Mitchell,谢,谢,Q&A,敬请各位批评指正!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报