1、 机器视觉的主要任务及使命一、机器视觉不是一个单独的任务中国(包括香港地 区)技术市场经 理朱君女士 接受了中国 视觉网的采访。在谈到对 2005 年中 国机器视觉 市场的发展 时,她说,从总体上看 ,中国的机器 视觉产业还 处在初期的 发展阶段,不过随着越 来越多的中 国产品进入 全球市场参 与竞争,对于产品的 可靠性和高 质量,以及更快生 产力的要求 与日俱增。随着制造过 程变得越来 越自动化,机器视觉这 一领域也在 受到广泛的 重视,其潜力巨大 ,有很好的发 展趋势。在朱君看来 ,从宏观方面 来看,机器视觉不 是一个单独 的任务,而是整个自 动化领域的 一个组成部 分,它结合其他 任务共
2、同完 成系统功效 。比如说用户 会结合运动 控制、数据采集等 各种功能完 成例如模拟 -数字、数字-电子等测试 ,而且不同的 仪器之间的 集成会需要 用到同步等 功能。她介绍说,NI 公司作 为一家测试 测量和自动 化领域的领 先企业为各 行业的用户 提供视觉、运动、数据采集等 硬件产品,以及自动化 行业标准的 LabVIEW 图形化 开发环境软 件平台,确保整个系 统软硬件之 间的集成。NI 视觉系 统结合了经 验证的软硬 件工具。视觉开发模 块(Visio n Development Module)是 LabVIEW编程 环境的一个 附加模块,它是专为使 用各种编程 语言(例如 NI La
3、bVIEW, NI LabWindows/CVI, C/C+或 Visual Basic)的编程者而 设计的数百 种函数功能 集。此外,NI 还提供 一个交互的 软件环境 Vision Builder AI,使得用户无 需编程即可 配置、校准和发布 他们的机器 视觉应用。视觉开发模 块(Visio n Development Module)和 Vision Builder AI 软件都 可以与一系 列硬件产品 达到完美的 无缝集成,其优势在于 可支持数千 种摄像头,从而满足用 户们各种视 觉系统的需 求。因此,这样的系统 就能够以更 高的效率和 更低的成本 解决一系列 应用挑战。.本地用户采
4、用 NI 的软 硬件技术已 经完成了一 系列成功的 解决方案,现在就以香 港最大的电 力供应商CLP Power公司为例。之前,他们是通过 人工方式控 制校准器输 出测试点,读取并记录 测量值,比较极限数 据,再将手写的 原始数据传 输到 PC。现在,他们转而采 用基于 NI机器视觉技 术的自动化 测试系统:通过 PXI硬件平台来 获取图像,通过 NI LabVIEW 软件和 视觉开发模 块处理图像 。使用该系统 极大地提高 了测试效率 ,从原来的每 1 小时/1 台仪器到 现在的每 20 分钟/2 台仪器,速度上达到 原先的 6 倍 。除了时间上 的节省,由于该过程 是完全自动 化的,所以仪
5、器校 准也不再需 要。更重要的是 ,人为的错误 可以降至最低。二、单个视觉系统完成近 2000 个检测点的任务多样或大型 表面检测和 鉴定任务,可否由一台 摄像机独立 完成?通常,需要一组相 机或一台相 机在检测区域来回的移 动才能完。现在我们借 助康耐视公 司的视觉系 统,成功装备了 一条快速、灵活、性价比高的 检测系统。这个独创性 举措真正体 现了机器视 觉检测产品 的简单、灵活的设计 理念。 轻松读取大 型表面上的 微细编码在探索大型 表面最佳的 矩阵码读取 技术时,利用了一款 旋转镜头,同康耐视公 司的 In-Sight摄像头或者 VisionPro软件组合形 成一套紧凑 型检测系统
6、,拓宽了图像 处理应用领 域,材料使用也 实现最小化 。 新发明 单个系统独 立担当大型 的表面检测 任务人们在调整 固定镜时发 明了旋转镜 。在研究 12cm 大小 镜片该如何 摆位以读取 编码的问题 上,意识到操作 图像处理器 时,镜片必须是 可以任意转 动的,而不是将它 固定起来。由此发明的 视觉系统可 承担大型表 面检测任务 ,并经受住最 恶劣操作环 境的挑战,而所占空间 只有鞋盒大 小。在 In-Sight摄像头(康耐视),镜头,旋转镜,步进发动机 和电子驱动 系统这一套 组合的支持 下,它足以完成 高精度、多样性的检 测任务。 担当近 2000 个检测 点任务旋转镜由步 进电动机控
7、 制,可将零件的 检测区域转 射到 In-Sight视觉系统,精度可达到 1 微米。借助这款高 精度旋转镜 ,500 x 500 毫米 区域的图像 摄制和诊断 ,只需单个摄 像头就可以 准确地完成 。它的主要优 点包括:周期短,精度准,空间小,性价高。凭借这套集 成微处理器 ,视觉系统即 可自动完成转向和近 2000 个不 同检测点的 诊断任务。这种集成系 统,在现有生产 线上可以直 接安装,不必另外添 加PC 设备 。活动反射镜 头帮助系统 轻松进行检 测盲点区域 。 特殊应用实 例: 电子仪器制 造业产品检 测和条码读 取(计算机,掌上电脑等 等) 读取配电板 条码或焊点 检测:在条码读取
8、 困难,条码众多,或通常需要 配备多个摄 像头等情况 调节电控板 的检测 多种电控板 上 PIN 针 位置和深度 检测,电子元件和 焊点的快速 检测 保险丝和控 制器检测 包装材料的 编码识别 紧凑、灵活、操作简易此解决方案 既可独立运 行,也可连接 VCSP 软件 工具(视觉服务器 控制设备)。操作者即使 没有任何编程知识,也能运行最 复杂的检测 程序。直观的用户 界面,简化了繁琐 的编程工作 ;快捷简单的 操作培训,让操作者尽 快熟悉系统 ,并进行新程 序的创建。在此软件辅 助下,用户可以将 镜头移动至 任意位置,检测点精确 度达到千分 之一毫米。它也可“手持式”操作 三大组合元 件 In
9、-Sight,活动镜偏转 技术,以及VCSP 软件工具 ( 50ms 数 据交换速度 要求)。检测结果存 储在内部数 据库中,以便在故障 诊断时随时 获取。本身快速且 灵活的特性 ,再结合康耐 视公司的视 觉技术,是一套具有 较高性价比 的检测系统 。参与到计算 机视觉行业 近两年来,第一次仔细 认真的回过 头看自己做 的究竟是什 么东西。在过去的工 作中,不管是在学 校还是在单 位,拿到项目了 ,就照着自己 所要达到的 目的去查找 资料,阅读文献,然后就是写 代码。大大小小的 项目经历了 这么多,做完一个,开心,以前学的一 些图像处理 方面的知识 ,现在也好多 没用到,没用到的自 然就忘了,
10、该系统的回 顾一下了!后面要做好 这些工作,还将回顾一 下自己所熟 知的几个方 向,加油!下面就简单 介绍一下相 关的东西以 及 Marr提出的视觉 系统框架:计算机视觉 理解的任务 :低层的图像 处理、高层的图像 理解。低层:图像压缩、噪声滤波、图像锐化等 预处理方法 。高层:取决于知识 、目标以及如 何达到目标 ,主要用的人 工智能的方 法。高层计算机 视觉:模仿人类的 认知和根据 包含在图像 中的信息进 行决策的能 力。计算机视觉 是建立在高 层处理的基 础上的,认知过程与 图像内容的 先验知识是 紧密结合在 一起的。低层计算机 视觉技术几 乎与数字图 像处理完全 重合。边缘提取是 该阶
11、段一个 典型的处理 例子。低层图像处 理与高层计 算机视觉的 区别在于所 使用的数据 。低层数据由 原始图像构 成,表现为亮度 或灰度值构 成的矩阵;而高层数据 虽然也来源 于图像,但是只有那 些与高层目 标有关的数 据被提取出 来,很大程度上 减少数据量 。高层数据表 示了有关图 像内容的知 识。Marr 认 为,视觉系统的 任务是对环 境中三维物 体进行识别 、定位与运动 分析。视觉系统研 究的三层次 :计算理论层 次、表达与算法 层次、硬件实现层 次1)计算理论层 次:回答系统各 个部分的计 算目的与计 算策略,亦即各个部 分的输入输 出是什么,之间的关系 是什么变换 或是具有什 么约束
12、。输入是二维 图像,输入是由二 维图像“重建” 出来的三维 物体的位置 与形状。2)表达与算法 层次:视觉系统的 研究给出各 个部分的输 入、输出和内部 的信息表达 ,以及实现计 算理论所规 定的目标的 算法。3)硬件层次:如何用硬件 实现以上算 法。视觉信息处 理的三阶段 :1)构成所谓“ 要素图”或“基元图” ,基元图由二 维图像中的 边缘点、直线段、顶点、纹理等基本 几何或特征组成;2)对环境 2.5 维的描述 ,即部分的、不完整的三 维形状与位 置。以观察者坐 标系下描述 的部分三维 物体形状,称为 2.5 维描述。包括立体视 觉、运动分析、由灰度恢复 表面形状等 处理单元。3)由 2
13、.5 维描述得 到物体完整 的三维描述 ,而且是在物 体本身某一 固定坐标系 下的描述。三、图像处理与机器视觉图像处理系 统的功能包 括:增强、编码、压缩、复原与重构 。图像增强:图像增强系 统所执行操 作的结果是 使人们觉得 处理后的图 像质量更好 。如对比度增 强、亮度放缩、边缘锐化等 。图像编码:编码使研究 图像信息的 表达方式,使其更经济 与有效,这包括量化 方法、冗余消除。编码还可能 包括研究图 像信息的表 达方式,使其在传输 或存储图像 中出现错误 时仍具有鲁 棒性。图像压缩:目的在于减 少存储与传 输图像的比 特数量。图像复原:对图像中的 错误进行修 改。如添加一个 确定性的模
14、糊操作,随机噪声等 。图像重构:指若干局部 图像重构成 一幅完整图 像的过程。机器视觉:机器对图像 进行自动处 理并报告图 像中有什么 的过程。包括:特征度量、基于特征的 模式识别特征度量:从图像中提 取一组度量 ,以表示整幅 图像或某些 组成的特点 。模式分类:对度量作出 决策的过程 ,即给定一个 未知物体的 某个度量或 一组度量。模式识别:对未知物体 进行分类。四、机器视觉的 主要任务据工业相机 CCD 厂家 介绍,机器视觉的 主要任务可 分为:1、定位,即能够自动 判断物体的 位置,并将位置信 息通过一定 的通讯协议 输出;2、测量,自动测量产 品的外观尺 寸;3、缺陷检测,这是机器视
15、觉系统用的 最多的一种 功能,它可以检测 产品表面的 一些信息。譬如:包装正误,有没有包装 正确、印刷有无错 误、表面有无刮 伤或颗粒、破损、有没有油污 灰尘、塑料件有没 有穿孔、有没有注塑 不良等;基本上,产品的品质 需要用人眼 来判断的,都可以尝试 用视觉技术 来替代,获得更有的 产品性能。对于缺陷检 测,也可以说是 对物体进行 比较,找出诸如缺 少元件或标 签等的制造 缺陷。这种比较可 能是简单的 图样相减,也可能涉及 到几何或矢 量图形匹配 算法。如果被比较 物体的尺寸 或方向各不 相同的话,就必须采用 后者。比较的类型 包括检测物 体的有无、匹配色彩和 比较印刷质 量。对于上述的 检
16、测而言,都是建立在 机器视觉检 测技术上来 完成的。机器视觉是通过计算机算法自动理解图片内容的技术,十九世纪六十年代,它起源于人工智能和认知神经科学。为了“解决”机器视觉的问题,1966 年,在麻省理工学院,这个问题作为一个夏季项目被提出,但是人们很快发现要解决这个问题可能还需要更长的路要走。在 50 年后的今天,一般的图像理解任务仍旧是不能得到完美解决。但是也已取得显着进展,并且随着机器视觉算法商业化的成功,机器视觉产品已经开始拥有广泛的用户,包括图像分割(例如微软 office中去除图片背景的功能)、图像检索、人脸检测对焦和 Kinect 的人体行为捕获等。几乎可以确定的是机器视觉最近的突
17、飞猛进主要得益于最近 15 到 20 年机器学习领域的快速发展。本主题的第一篇文章主要是探索一下机器视觉所面临的挑战和介绍一个非常重要的机器学习技术像素智能分类决策树算法。图像分类想像一下并试着回答下面这个有关图像分类的问题:“在这张图片中有一辆汽车吗”。对于计算机来说,一张图片仅仅是由三原色(红、绿、蓝)构成的像素组成的格子,三原色中每一个颜色通道的值的范围都是 0 到255。这些值的改变不仅依赖于事物对象是否在图片中呈现,也依赖于一些干扰事件,比如摄像机的视角、灯光条件、背景和对象的形态。另外,一个必须处理的问题是不同类别的汽车呈现不同的形状。例如,这辆汽车可能是辆旅行车、或者小卡车、或者
18、是辆跑车,这些都会对图片像素造成很大影响。幸运的是监督机器学习算法提供了替代原本需要人工编码解决这些多可能性的问题的方式。通过收集图片的训练集和适当的人工标记每一张训练图片,我们能够使用最好的机器学习算法找到哪些像素模式是同要识别的对象相关的以及哪些是干扰因素产生的。我们希望我们的算法最终能够适用于识别以前没有经过训练的新的样本,并且对于噪声保持不变性。在新的机器视觉算法的发展和数据集的收集标注两个方面我们都取得了长足的进步。像素智能分类决策树算法图片在很多层面上包含细节。就像前面我们提到的,我们可以问一个问题在整张图片中是否有一个特定的对象类别(比如汽车)。现在我们可以问一个更难点的问题这张
19、图里都包含了什么,这就变成了一个著名的问题“图像语义分割”:提取图片场景中所有的对象。例如下面街道场景的图片你可以想象一下,这可以用于帮助你有选择的编辑一些照片,或者用于拼接一张全新的照片;我们还能马上想出更多的应用场景。解决语义分割问题可以有很多方法,但是一个最有效的算法是像素智能分类:训练一个分类器在像素级别预测每一个对象(如汽车、街道、树、墙等)分布情况。这个任务带给机器学习一些计算问题,特别是图片包括很多的像素的时候(例如,诺基亚 1020 智能手机拍照的像素是 4100 万像素)。这就意味着整个运算时间是我们分类任务全部训练和测试样本图片乘以几百万的倍数。这个问题的规模促使我们寻找一
20、个更有效的分类模型决策树(也称为随机树或随机决策树)。一个决策树是一个分离训练后的决策树的集合,如下图所示。每一决策树都有一个根节点,多个内部“分支”节点,和多个叶子节点。测试分类时,从根节点开始,并且计算二叉“分支函数”,这个函数可能就像“这个像素是否比它的邻域像素更红”一样简单。根据该二元决策,它将沿分支向左或向右,接下来查看下一个“分支函数”,一直重复这样的操作。当最终达到叶子节点,一个存储的预测通常是一个包含类别标签的直方图就是输出(你也可以去看一下 Chris Burges 最近的一篇非常出色的论文,是关于提升变种决策树在搜索排名中的应用)。决策树的美在于他的执行效率:虽然从根节点到
21、叶子节点包含指数级可能的路径,但是任意一个独立的测试像素仅仅通过一个路经。此外,分支函数的计算是以此前的事件为条件的:例如,分类器只需要依赖此前分支决策的答案提出正确的问题就行了。这很像“20 问”游戏:当你仅被允许去问少量问题时,你可以很快学会根据你以前问题的答案来调整自己要提出的下一个问题。有了这项技术,我们已经能够成功处理这些不同的问题,如照片的语义分割,街头的场景分割,人体解剖学的 3D 医学扫描图像分割,摄像头的重定位和使用Kinect 深度摄像头对人体身体部位的划分。对于 Kinect 来讲,决策树测试时间效率是关键:我们有一个非常严格的计算预算,但是这样的计算要求搭配 Xbox
22、GPU并行处理像素的能力,意味着我们能够适应这种应用场景1。在本主题的第二部分,我们将围绕一个热门话题深度学习图像分类并且盯着这个“水晶球”来看看接下来会发生什么。同时,如果你想要在云平台中开始机器学习,请访问我们的机器学习中心。五、机器视觉识别技术盘点机器视觉识别技术:未来或成为拥有视觉的机器原标题:机器视觉识别技术的现状和未来机器视觉识别技术的背景移动互联网、智能手机以及社交网络的发展带来了海量图片信息,根据 BI 五月份的文章,Instagram 每天图片上传量约为 6000 万张;今年 2 月份WhatsApp 每天的图片发送量为 5 亿张;国内的微信朋友圈也是以图片分享为驱动。不受地
23、域和语言限制的图片逐渐取代了繁琐而微妙的文字,成为了传词达意的主要媒介。图片成为互联网信息交流主要媒介的原因主要在于两点:第一,从用户读取信息的习惯来看,相比于文字,图片能够为用户提供更加生动、容易理解、有趣及更具艺术感的信息;第二,从图片来源来看,智能手机为我们带来方便的拍摄和截屏手段,帮助我们更快的用图片来采集和记录信息。但伴随着图片成为互联网中的主要信息载体,难题随之出现。当信息由文字记载时,我们可以通过关键词搜索轻易找到所需内容并进行任意编辑,而当信息是由图片记载时,我们却无法对图片中的内容进行检索,从而影响了我们从图片中找到关键内容的效率。图片给我们带来了快捷的信息记录和分享方式,却
24、降低了我们的信息检索效率。在这个环境下,计算机的机器视觉识别技术就显得尤为重要。机器视觉识别是计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。识别过程包括图像预处理、图像分割、特征提取和判断匹配。简单来说,机器视觉识别就是计算机如何像人一样读懂图片的内容。借助机器视觉识别技术,我们不仅可以通过图片搜索更快的获取信息,还可以产生一种新的与外部世界交互的方式,甚至会让外部世界更加智能的运行。百度李彦宏在2011年提到“全新的读图时代已经来临”,现在随着图形识别技术的不断进步,越来越多的科技公司开始涉及图形识别领域,这标志着读图时代正式到来,并且将引领我们进入更加智能的未来。
25、机器视觉识别的初级阶段娱乐化、工具化在这个阶段,用户主要是借助机器视觉识别技术来满足某些娱乐化需求。例如,百度魔图的“大咖配”功能可以帮助用户找到与其长相最匹配的明星,百度的图片搜索可以找到相似的图片;Facebook 研发了根据相片进行人脸匹配的DeepFace;雅虎收购的机器视觉识别公司 IQ Engine 开发的 Glow 可以通过机器视觉识别自动生成照片的标签以帮助用户管理手机上的照片;国内专注于机器视觉识别的创业公司旷视科技成立了 VisionHacker游戏工作室,借助图形识别技术研发移动端的体感游戏。这个阶段还有一个非常重要的细分领域OCR(Optical Character R
26、ecognition,光学字符识别),是指光学设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,就是计算机对文字的阅读。语言和文字是我们获取信息最基本、最重要的途径。在比特世界,我们可以借助互联网和计算机轻松的获取和处理文字。但一旦文字以图片的形式表现出来,就对我们获取和处理文字平添了很多麻烦。这一方面表现为数字世界中由于特定原因被存储称图片格式的文字;另一方面是我们在现实生活中看到的所有物理形态的文字。所以我们需要借助 OCR 技术将这些文字和信息提取出来。在这方面,国内产品包括百度的涂书笔记和百度翻译等;而谷歌借助经过 DistBeli
27、ef 训练的大型分布式神经网络,对于 Google 街景图库的上千万门牌号的识别率超过 90%,每天可识别百万门牌号。在这个阶段,机器视觉识别技术仅作为我们的辅助工具存在,为我们自身的人类视觉提供了强有力的辅助和增强,带给了我们一种全新的与外部世界进行交互的方式。我们可以通过搜索找到图片中的关键信息;可以随手拍下一件陌生物体而迅速找到与之相关的各类信息;可以将潜在搭讪对象拍下提前去她的社交网络了解一番;也可以将人脸识别作为主要的身份认证方式这些应用虽然看起来很普通,但当机器视觉识别技术渗透到我们行为习惯的方方面面时,我们就相当于把一部分视力外包给了机器,就像我们已经把部分记忆外包给了搜索引擎一
28、样。这将极大改善我们与外部世界的交互方式,此前我们利用科技工具探寻外部世界的流程是这样:人眼捕捉目标信息、大脑将信息进行分析、转化成机器可以理解的关键词、与机器交互获得结果。而当机器视觉识别技术赋予了机器“眼睛”之后,这个过程就可以简化为:人眼借助机器捕捉目标信息、机器和互联网直接对信息进行分析并返回结果。机器视觉识别使摄像头成为解密信息的钥匙,我们仅需把摄像头对准某一未知事物,就能得到预想的答案。就像百度科学家余凯所说,摄像头成为连接人和世界信息的重要入口之一。机器视觉识别的高级阶段拥有视觉的机器上文提到,目前的机器视觉识别技术是作为一个工具来帮助我们与外部世界进行交互,只为我们自身的视觉提
29、供了一个辅助作用,所有的行动还需我们自己完成。而当机器真正具有了视觉之后,它们完全有可能代替我们去完成这些行动。目前的机器视觉识别应用就像是盲人的导盲犬,在盲人行动时为其指引方向;而未来的机器视觉识别技术将会同其他人工智能技术融合在一起成为盲人的全职管家,不需要盲人进行任何行动,而是由这个管家帮助其完成所有事情。举个例子,如果机器视觉识别是一个工具,就如同我们在驾驶汽车时佩戴谷歌眼镜,它将外部信息进行分析后传递给我们,我们再依据这些信息做出行驶决策;而如果将机器视觉识别利用在机器视觉和人工智能上,这就如同谷歌的无人驾驶汽车,机器不仅可以对外部信息进行获取和分析,还全权负责所有的行驶活动,让我们
30、得到完全解放。人工智能:一种现代方法中提到,在人工智能中,感知是通过解释传感器的响应而为机器提供它们所处的世界的信息,其中它们与人类共有的感知形态包括视觉、听觉和触觉,而视觉最为重要,因为视觉是一切行动的基础。在一次论坛上百度 IDL 的余凯院长问大家,你觉得哪种感觉最重要?没有人能很快作答,后来余凯院长换了个提问方式,如果要放弃一种感觉,你最不愿意放弃的是那一种?这时大家都回答是视觉。Chris Frith在心智的构建中提到,我们对世界的感知不是直接的,而是依赖于“无意识推理”,也就是说在我们能感知物体之前,大脑必须依据到达感官的信息来推断这个物体可能是什么,这构成了人类最重要的预判和处理突
31、发时间的能力。而视觉是这个过程中最及时和准确的信息获取渠道,人类感觉信息中的 80%都是视觉信息。机器视觉之于人工智能的意义就是视觉之于人类的意义,而决定着机器视觉的就是机器视觉识别技术。更重要的是,在某些应用场景,机器视觉比人类的生理视觉更具优势,它更加准确、客观和稳定。人类视觉有着天然的局限,我们看起来能立刻且毫无费力的感知世界,而且似乎也能详细生动的感知整个视觉场景,但这只是一个错觉,只有投射到眼球中心的视觉场景的中间部分,我们才能详细而色彩鲜明的看清楚。偏离中间大约 10 度的位置,神经细胞更加分散并且智能探知光和阴影。也就是说,在我们视觉世界的边缘是无色、模糊的。因此,我们才会存在“
32、变化盲视”,才会在经历着多样事物发生时,仅仅关注其中一样,而忽视了其他样事物的发生,而且不知道它们的发生。而机器在这方面就有着更多的优势,它们能够发现和记录视力所及范围内发生的所有事情。拿应用最广的视频监控来说,传统监控需要有人在电视墙前时刻保持高度警惕,然后再通过自己对视频的判断来得出结论,但这往往会因为人的疲劳、视觉局限和注意力分散等原因影响监控效果。但有了成熟的机器视觉识别技术之后,再加以人工智能的支持,计算机就可以自行对视频进行分析和判断,发现异常情况直接报警,带来了更高的效率和准确度;在反恐领域,借助机器的人脸识别技术也要远远优于人的主观判断。许多科技巨头也开始了在机器视觉识别和人工
33、智能领域的布局,Facebook 签下的人工智能专家 Yann LeCun最重大的成就就是在机器视觉识别领域,其提出的LeNet 为代表的卷积神经网络,在应用到各种不同的机器视觉识别任务时都取得了不错效果,被认为是通用机器视觉识别系统的代表之一;Google 借助模拟神经网络“DistBelief”通过对数百万份 YouTube 视频的学习自行掌握了猫的关键特征,这是机器在没有人帮助的情况下自己读懂了猫的概念。值得一提的是,负责这个项目的 Andrew NG 已经转投百度领导百度研究院,其一个重要的研究方向就是人工智能和机器视觉识别。这也能看出国内科技公司对机器视觉识别技术以及人工智能技术的重视程度。机器视觉识别技术,连接着机器和这个一无所知的世界,帮助它越发了解这个世界,并最终代替我们完成更多的任务。