收藏 分享(赏)

计算机科学引论课件06.ppt

上传人:gnk289057 文档编号:9383430 上传时间:2019-08-04 格式:PPT 页数:49 大小:992KB
下载 相关 举报
计算机科学引论课件06.ppt_第1页
第1页 / 共49页
计算机科学引论课件06.ppt_第2页
第2页 / 共49页
计算机科学引论课件06.ppt_第3页
第3页 / 共49页
计算机科学引论课件06.ppt_第4页
第4页 / 共49页
计算机科学引论课件06.ppt_第5页
第5页 / 共49页
点击查看更多>>
资源描述

1、人工智能,计算机科学引论,2019年8月4日,Machine Structure,2,智能,什么是智能 推理、计划、解决问题 抽象思维 连接复杂观点 快速学习、从实践学习 人类拥有这些能力 但是使用起来很累 科学是由懒惰者推动的 ?!,2019年8月4日,Machine Structure,3,人工智能,人工智能(AI: Artificial Intelligence) 制造机器来完成需要使用人类智能的工作 什么样的机器才能被认为有智能? 图灵测试 被测试的有一个人,另一个是声称自己有人类智力的机器。测试时,测试人与被测试人是分开的,测试人只有通过一些装置(如键盘)向被测试人问一些问题,这些问

2、题随便是什么问题都可以。问过一些问题后,如果测试人能够正确地分出谁是人谁是机器,那机器就没有通过图灵测试,如果测试人没有分出谁是机器谁是人,那这个机器就是有人类智能的。,2019年8月4日,Machine Structure,4,人工智能,图灵测试 全面通过图灵测试 提问者可以提出任何问题 尚遥遥无期 局部通过图灵测试 提问者只能提某个领域的问题 已有先例 IBM Deep Blue,2019年8月4日,Machine Structure,5,人工智能,实现人工智能的必要条件 获得并理解人类的感知 视、听、触、味、嗅 目前可以被输入计算机的:视、听 目前可被计算机全面“理解”的:没有! 只可部

3、分理解 有时候被叫做“模式识别”(Pattern Recognition) 推理 传统人工智能技术关注的重点,2019年8月4日,Machine Structure,6,人工智能,理解人类的感知 理解听觉 理解视觉 理解自然语言(NL: Natural Language) 自然语言是一种特殊的“感知”:视听觉只是其传播方式 每一种感知被称作一种“媒体”(media) 多媒体处理(Multimedia Processing):综合分析多种媒体的内容来对一个素材的内容进行理解,2019年8月4日,Machine Structure,7,人工智能,理解人类的感知 多媒体处理 “处理”主要指提取其语义

4、内容 三维渲染、视频剪辑、声音合成等技术通常不叫做“多媒体处理” 不过仍然可被认为是“多媒体技术” “多媒体处理”中也会用到一些相关技术,多媒体素材,数学模型 语义,多媒体处理,各种合成技术,2019年8月4日,Machine Structure,8,多媒体处理,理解声音(audio) 声音分类 噪声(noise) 乐音(music) 语音(speech) 声音识别 检测风声、雨声、读书声爆炸声 较少 语音识别(Speech Recognition),2019年8月4日,Machine Structure,9,多媒体处理,理解声音 时域(time domain) 声音信号本来的面目 波形图,2

5、019年8月4日,Machine Structure,10,多媒体处理,理解声音 频域(frequency domain) 声音信号在各个频率的能量分布,2019年8月4日,Machine Structure,11,多媒体处理,理解声音 频域 早期声卡:频率合成 FM: Frequency Modulation 使用不同的加权权重即可获得不同音色 根据乐器的音色设置权重即可模拟不同乐器的声音,振荡器,f x 2,f x 3,音阶,f x 4,f x n,输出,2019年8月4日,Machine Structure,12,多媒体处理,理解声音 频域,白噪声: 在整个频率域的强度大致相当,2019

6、年8月4日,Machine Structure,13,多媒体处理,理解声音 频域,语音: 3.4KHz以下强度大,以上很快衰减,2019年8月4日,Machine Structure,14,多媒体处理,理解声音 第一步:把声音信号变换到频域 FFT: Fast Fourier transform DFT: Discrete Fourier transform 第二步:把频率信息变换成特征 倒谱(cepstrum):把频域信息再次进行频率变换 MFCC LPCC 实际计算中这两步常常合并成一步,2019年8月4日,Machine Structure,15,多媒体处理,理解声音 特征(Featur

7、e) 物理上:可以较好地反映某个特性的物理量 数学上:一个矢量(Feature Vector) 特征提取(Feature Extraction) 从原始信号中计算出所需要的特征 一旦原始信号被抽象成特征,对感知的理解问题就成为一个数学问题 把特征矢量转换成语义的数学算法:分类,2019年8月4日,Machine Structure,16,多媒体处理,理解声音 分类(classification) 把特征矢量转换成语义的数学算法 例:语音识别 把MFCC所组成的高维空间分解成不同的部分,每部分代表一个读音。如某个特征矢量落在某部分,则可知道该矢量代表的读音。,a,o,p,t,k,e,y,2019

8、年8月4日,Machine Structure,17,多媒体处理,理解声音 分类 如何获得特征空间的划分方法? 机器学习(Machine Learning) 采集一大堆样本,样本与语义的对应关系已知。于是,根据这个对应关系就可以知道特征空间中的某个区域所对应的语义是什么。 例:让100个人说“o”,然后对其声音进行变换,发现其MFCC都落在图中的区域,则可知该区域对应“o”。,2019年8月4日,Machine Structure,18,多媒体处理,理解声音 机器学习 第一步:获得一个训练集(Training Set) 特征矢量和所需要的语义的对应关系 第二步:根据训练集训练出对特征空间的划分

9、 模型(Model) 第三步:根据所获得模型对新到特征矢量分类,2019年8月4日,Machine Structure,19,多媒体处理,理解声音 机器学习 特征矢量是高维矢量 常用:10-1000维 获得训练样本成本很高 必须标注样本和语义的对应关系,只能由人完成训练集在特征空间的分布是非常稀疏的,2019年8月4日,Machine Structure,20,多媒体处理,理解声音 机器学习 高级建模算法 SVM: Support Vector Machine GMM: Gaussian Mixture Model EM: Expectation Maximum HMM: Hidden Mar

10、kov Model 人工神经网络:Neural Network 矢量量化:Vector Quantization 不同应用需要不同的建模算法 目前的建模算法仍然不够完善,2019年8月4日,Machine Structure,21,多媒体处理,理解图像 基本方法:特征提取训练分类 常用图像特征 颜色 主要颜色 颜色直方图 纹理 Tamura 颜色特征 灰度共生矩阵 形状 傅立叶描述子,2019年8月4日,Machine Structure,22,多媒体处理,理解图像 基本方法:特征提取训练分类 但是:一幅图像中可能有多个语义 百闻不如一见,草,花,树,房子,2019年8月4日,Machine

11、Structure,23,多媒体处理,理解图像 图像分割(segmentation) 把图像分割成较小的区域 准则? 语义:尚未获得 特征:如果分割效果很好,则语义已经获得,分割本身已无意义 以特征为准则进行图像分割,其结果只能是特征空间上一致的,不可能是语义上一致的 分割还是不分割?,2019年8月4日,Machine Structure,24,多媒体处理,理解图像 图像分割 支持派:一定要分,否则难以提取合适的特征 主要处理自然景观等较复杂图像 研究复杂的分割算法 反对派:分割问题和分类问题一样难,所以不进行分割 主要处理含单个物体的简单图像 研究复杂的分类算法,2019年8月4日,Mac

12、hine Structure,25,多媒体处理,理解图像 图像分割 如何结合二者的好处? 进行分割 但不假设分割结果是符合语义的,接受按照特征一致性分割的结果 两步分类 首先将特征一致的区域分类成低级的、在视觉特征上较一致的语义 合并语义一致的区域:Salient Object 然后把低级语义分类成高级语义,2019年8月4日,Machine Structure,26,多媒体处理,理解图像 第一步:检测Salient Object 把原始图像分割成特征一致的区域 把区域分类,合并相邻的同类区域,原始图像 分割区域 Salient Object,2019年8月4日,Machine Structu

13、re,27,多媒体处理,理解图像 第二步:根据图像中的Salient Object分类为高级语义 两步中都要使用高级建模算法,Mountain View,2019年8月4日,Machine Structure,28,多媒体处理,理解视频 视频是多个连续图像组成的流 理解图像的技术可以沿用 多个图像的信息应当叠加 提高检测准确率 减低检测噪声,2019年8月4日,Machine Structure,29,多媒体处理,理解视频 叠加多帧的检测结果可获得非常稳定的结果,Text Face Hair Inside Skin Blood,2019年8月4日,Machine Structure,30,多媒

14、体处理,理解文字(自然语言) 语义:不同的应用有不同的含义 声音、图像、视频:文字(关键字:keyword)即被认为是语义的最佳表示 当前研究致力于提取可以表示声音、图像、视频等的文字 文本:文字的真实含义才是语义 信息提取(IR: Information Retrieval):时间、地点、人物、事件 主题分类(Topic Classification) ,2019年8月4日,Machine Structure,31,多媒体处理,自然语言处理 理解自然语言的真实语义 中文:分词(Word Segmentation) 把连续的字分成以词为单位 词性标注(POS: Part-of-Speech)

15、标注各个词为动词、名词 语法分析(Syntax Parsing) 标注各个词为主语、谓语宾语 标注句子的语法结构 准确率一般不高:自然语言本身不是很精确,2019年8月4日,Machine Structure,32,多媒体处理,自然语言处理 统计方法 词频:一个词在一个文档中出现的次数 某些词在不同的文档中出现的频率差异很大 矢量模型:由关键词词频组成的矢量可以表示文本的内容,即特征矢量 在某些应用获得成功:如主题分类 目标具有统计性质 如何实现提取时间、地点、人物、事件等细节特征? 目标是一个个体,不具有统计性质 WEB分析:如果有很多文档,则这些个体内容很可能被多次重复,从而具有了统计性质

16、,2019年8月4日,Machine Structure,33,多媒体处理,理解人类感知 特征提取 如何提取好的特征? 如何把一个语义检测问题转换成一个数学问题 机器学习 如何获得好的分类模型 如何解决所转换出的数学问题 两方面均是现在计算机科学研究的热点 仍然没有好的解决方案,2019年8月4日,Machine Structure,34,推理,理解人类感知给计算机提供了输入 实现智能不仅要能够输入 还要根据输入作出响应 推理 根据当前出境作出最有利于自己的行动规划 输出 把推理结果付诸实施 如果行动规划已经存在,一般输出相对简单,2019年8月4日,Machine Structure,35,

17、推理,计算机如何推理 学习人的推理方法 人如何推理? 尚未完全解决 人大概如何推理? 产生式系统 推理的数学模型,2019年8月4日,Machine Structure,36,推理,产生式系统 基本原理:把所有可能尝试一次,选出对自己最有利那一次作为输出 假设: 有一个目标(goal),测试是否达到了目标很容易 “理性的”(rational):总是采取对自己最有利的,2019年8月4日,Machine Structure,37,推理,产生式系统 基本要素 状态(state):系统所处的位置 目标测试:测试系统是否达到了所期望的目标 初始状态:一开始系统所处的状态 状态空间:从初始状态可以到达的

18、所有状态,2019年8月4日,Machine Structure,38,推理,产生式系统 搜索树 搜索解所使用的树 节点(node) 树中的一个位置 状态,父节点 ,不同的概念: 同一状态可以在不同的节点,2019年8月4日,Machine Structure,39,推理,产生式系统 展开(expand) 把某个节点所有可能的后继节点遍历 路径 从搜索树的根到一个节点的节点顺序 算法的目的 找到一条路径,其第一个节点为初始状态,其最后一个节点的状态可通过目标测试,2019年8月4日,Machine Structure,40,推理,产生式系统 搜索策略 宽度优先,2019年8月4日,Machin

19、e Structure,41,推理,产生式系统 搜索策略 宽度优先(breadth-first) 优点:可以找到最短的路径 在某一层找到解即可终止 问题:内存占用量大 随着层数增加指数增加,2019年8月4日,Machine Structure,42,推理,产生式系统 搜索策略 深度优先,2019年8月4日,Machine Structure,43,推理,产生式系统 搜索策略 深度优先(depth-first) 优点:内存占用量小 只需保存最深的那条路径 问题:计算量大 可能遍历到最后才能发现解,2019年8月4日,Machine Structure,44,推理,产生式系统 搜索策略 如何最快

20、地搜索到解 最优节点优先:总是先搜索最有可能到达解的节点 如何知道哪个节点更有可能到达解? 如果精确知道此信息,则问题已经解决!估计一个到达解的成本 先搜索成本较小的节点 最小成本优先(best-first),2019年8月4日,Machine Structure,45,推理,产生式系统 最小成本优先 估计节点的成本 启发(heuristic),待测试状态 目标状态,启发值=6,2019年8月4日,Machine Structure,46,推理,产生式系统 最小成本优先,7,5,7,6,2019年8月4日,Machine Structure,47,推理,产生式系统 最小成本优先 A*算法:用最

21、小成本优先搜索算法寻找解的算法 优点 确保可达:如果有解,A*算法一定可以找到 最优:没有别的算法在满足确保可达的前提下比A*算法更快 加快A*算法的关键:找到好的启发值 缺点 在大多数情况下计算量、内存开销仍然过大 去除确保可达的限制可以实现,2019年8月4日,Machine Structure,48,推理,不确保可达的推理 贪心算法(Hill-Climbing) 每次总是向最接近解的方向前进一步 好的启发是关键 如果卡住了? 好的启发可以减少卡住的概率,但无法完全避免 重新初始化一个新的状态,再爬 模拟退火(Simulated Annealing):允许向不是最好的方向前进 基因算法(Genetic Algorithm),2019年8月4日,Machine Structure,49,谢谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报