1、机器视觉及应用,李东 ,自我介绍,个人简历: 2004年7月毕业于清华大学机械工程及自动化专业 2004年9月免试保送清华大学机械工程系/先进成形制造教育部重点实验室机器人分室攻读博士学位; 2009年7月获材料科学与工程学科工学博士学位。 2009年7月入职深圳大学光电工程学院 研究方向: 机器视觉与图像处理;嵌入式系统技术及应用 联系方式: 办公室:光电子所331室 电话:26733319,Email:,课程信息,目标:介绍机器视觉的基础理论介绍和分析机器视觉的经典算法介绍有关机器视觉的应用实例引导学生进入机器视觉领域的研究。,课程信息,课程设置情况: 一部分国外大学的计算机视觉课程:CM
2、U Martial HebertComputer Vision: http:/www.andrew.cmu.edu/course/16-720/index.htmlUIUCBy Jean Ponce, David Forsyth, Li Fei-Fei.http:/luthuli.cs.uiuc.edu/daf/Stanford By Li Fei-FeiComputer Vision:http:/cs.stanford.edu/groups/vision/teaching.html M ITBy Trevor Darrellhttp:/people.csail.mit.edu/trevor/
3、UCLA, UCSD,Caltech,Maryland,课程信息,主要参考书: 视觉测量或机器视觉, 张广军著. 科学出版社,课程信息,主要参考书: 计算机视觉:一种现代方法(中文版), Computer Vision: A ModernApproach. David A. Forsyth,Jean Ponce著. 林学阎,王宏等译,电子工业出版社 2004http:/www.cs.berkeley.edu/daf/book.html,课程信息,主要参考书:Multiple View Geometry in Computer Vision, Richard Hartley and Andrew
4、 Zisserman, Cambridge University Press, 2000计算机视觉中的多视图几何,安徽大学出版社,课程信息,主要参考书:Gary Bradski, Adrian Kaehler, “Learning OpenCV”于仕琪刘瑞祯译, 学习OpenCV(中文版), 清华大学出版社,课程信息,参考资料: International Journal of Computer Vision (IJCV) IEEE Transaction on Pattern Analysis and Machine Intelligence (TPAMI) IEEE Internation
5、al Conference on Computer Vision and Pattern Recognition (CVPR) IEEE Computer Society International Conference on Computer Vision (ICCV) 其他国际期刊和会议论文: Computer Vision and Image Understanding (CVIU) Pattern Recognition Letters (PRL) ECCV,课程信息,考核方式本课程的考核分为平时成绩、期末论文两大部分。总成绩按以下公式计算:总成绩平时成绩40%期末成绩60% 上课时间
6、:每周一下午5、6节 教学楼A312,绪论 Introduction,主要内容,第1章 绪论 1.1. 计算机视觉(Computer Vision)的发展 1.2.生物视觉简介 1.3. Marr的计算视觉理论框架 1.4.计算机视觉应用领域及面临问题 1.5.视觉测量系统与关键技术 补充:OpenCV简介,什么是计算机视觉呢?,让我们先来了解一些基础概 念,做好本课程学习的准备工作!,计算机视觉,计算机视觉的概念,Why Vision? 视觉是人类最重要的感觉,人类认识外界信息80%来自视觉 计算机视觉的概念 利用各种成像系统代替人类的视觉器官作为输入手段,由计算机来代替大脑完成处理和解释
7、计算机视觉的最终目标 使计算机像人那样,通过视觉观察和理解世界,具有自主适应环境的能力,计算机视觉的概念,计算机视觉当前的研究目标 使计算机具有通过二维图像认知三维环境的能力: 感知三维环境中物体的几何信息,包括形状、位置、姿态、运动等 对它们进行描述、存储、识别与理解,Computer Vision,Make computers understand images and video.,What kind of scene?Where are the cars?How far is the building?,计算机视觉与相关学科的关系,图像处理(Image Processing) 图像处理
8、,人是最终的解释者 计算机视觉,计算机是图像的解释者模式识别(Pattern Recognition) 根据从图像中抽取的统计特性或结构信息,把图像分成设定的类别,计算机视觉、图像处理与模式识别,计算机视觉与相关学科的关系,计算机图形学(Computer Graphics) 计算机图形学是一种使用数学算法将二维或三维图形转化为计算机显示器的栅格形式的科学 计算机图形学:从三维描述到二维图像显示 计算机视觉:从二维图像数据到三维描述计算机视觉与机器视觉(Machine vision) 基本理论框架、底层理论、算法相似 研究的最终目不同,视觉测量广泛应用于产品在线质量监控、微电子器件的自动检测、各
9、种磨具三维形状的测量及生产线线中机械手的定位与瞄准。在检测领域有重要地位哦!,视觉测量概念的提出 从计算机视觉概念和方法出发,将计算机视觉应用于空间几何尺 寸的精确测量和定位,从而产生了一种新的计算机视觉应用概念, 视觉测量。视觉测量作为当今高新技术之一,在电子学、光学探测、 图像处理和计算机技术不断成熟和完善的基础上得到了突飞猛进的 发展。,计算机视觉的发展,看一些实例吧,美国Perceptron公司研制的用于轿车车身生产的Perceptron 1000型多传感器视觉测量系统,美国Faro公司产品,计算机视觉,ATOS便携式三维扫描仪,计算机视觉,英国3D Scanners公司的产品,计算机
10、视觉,很多大公司都给予视觉测量领域足够的重视和资金支持,以上是一些世界知名企业的视觉测量产品。通过本课程的学习,我们会学习视觉测量的理论基础、当今视觉测量领域的发展现状、以及对视觉测量产品的运用!,计算机视觉,计算机视觉的发展,发展概况 20世纪50年代:统计模式识别 二维图像分析和识别,如光学字符识别、工件表面、显微图片和航空图片的分析和解释等 20世纪60年代:Roberts的三维积木世界 通过计算机程序从数字图像中提取出诸如立方体、楔形体、棱柱体等多面体的三维结构,并对物体形状及物体的空间关系进行描述 开创了以理解三维场景为目的的三维视觉研究 后人解决了由线段解释景物和处理阴影等问题,1
11、.2. 计算机视觉的发展,三维积木世界,1.2. 计算机视觉的发展,发展概况(续) 20世纪70年代:Marr为代表的计算理论 核心是从图像恢复物体的三维形状 提出要从不同层次去研究信息处理的问题 对计算理论和算法实现,特别强调计算理论的重要性 20世纪80年代:主动视觉(Active Vision) 主动视觉的四个特征:主动性(Active) 、选择性(Selective) 、目的性(Purposive) 、定性性(Qualitative) 对计算机视觉新的理解:根据任务,调整成像参数,选择感兴趣的区域,获取相关的图像信息,计算机视觉的困难与问题,计算机视觉是一个逆问题 输入:二维灰度图像
12、输出:三维物体的几何特征、位置 视觉信息多种多样,视觉知识的表达很困难 图像数据量巨大,信息存储与检索困难 对生理学、神经生物学等的研究有待深入,计算机视觉的应用,自主车导航 目标跟踪 工业应用:产品检验、柔性装配、海洋石油开采、海底勘察 医疗和军事应用:医疗外科手术 ,计算机视觉系统一般以计算机为中心,主要有视觉传感器、高速图像采集系统及专用图像处理系统等模块构成,如图所示:,计算机视觉系统构成,(1)视觉传感器:视觉传感器是整个计算机视觉系统信息的直接来源,主要由一个或两个图像传感器组成,有时还要配以光投射器及其它辅助设备。主要功能是获取足够的计算机视觉系统要处理的最原始图像。,常用的图像
13、传感器:激光传感器、线阵和面阵CCD摄像机或TV摄像机、数字摄相机。,计算机视觉系统构成,选择合适的光源对于获取清晰图像非常重要,让我们认识一些常用的光源:,(2)高速图像采集系统:由专用视频解码器、图像缓冲器以及控制接口电路组成。主要功能是适时地将视觉传感器获取的模拟视频信号转换为数字图像信号,并将图像直接传送给计算机进行显示和处理,或者将数字图像传送给专用图像处理系统进行视觉信号的实施前段处理。随着逻辑门阵列FPGA芯片的出现,使得大多数高速图像采集系统只需由几个芯片就可以完成。 图像采集系统与计算机的接口采用工业标准总线,如ISA、VME、PCI等。,计算机视觉系统构成,(3)专用图像处
14、理系统:是计算机的辅助处理器,主要采用专用集成芯(ASIC)、数字信号处理器(DSP)或者FPGA等设计的全硬件处理器,可以实时高速完成各种低级图像的处理算法,减轻后端计算机的处理负荷,提高整个视觉系统的速度。它与计算机之间的通信可以采用标准总线接口、串行通信总线接口或者网络通信等方式。,计算机视觉系统构成,(4)计算机:计算机是整个计算机视觉系统的核心,它除了控制整个系统的各个模块的正常运行外,还承担着视觉系统的最后结果运算和输出。由图像采集系统输出的数字图像可以直接传送到计算机,有计算机采用纯软件方式完成所有的图像处理和其他运算。如果纯软件处理能够满足视觉系统的要求,就不需专用硬件处理系统
15、出现在计算机视觉系统。,计算机视觉系统构成,小结随着计算机视觉的飞速发展,二维视觉处理已从二值视觉系统发展为灰度视觉系统,并达到实用。在三维视觉信息获取上,也取得了巨大的进步,并且由于实现思想和条件的不同,产生了相应的诸多方法,从一定程度上克服了自然环境的限制,进一步扩大了计算机视觉的应用领域。,生物视觉通路如下图所示:,1.2.1 生物视觉通路,生物视觉简介,视觉第一通路:神经节细胞轴突在外膝体患神经元后,由外膝体神经元直接经到视放线到视皮层,这是视束的大部分纤维去向,称为第一视觉通路。神经信号主要是通过视觉第一视通路到达视皮层,在视觉过程中起着主要作用视觉第二通路:视束的一小部分纤维走向内
16、方,经上丘臂到达上丘和顶盖前区。上丘浅层神经元投射到丘脑枕换元后,再投射到视皮层,上丘还有纤维直接透射到视皮层。由于这条通路不经过外膝体,故称为视觉第二通路。第二视觉视通路的作用极其微小。,生物视觉简介,由视觉视通路可以看到,眼、外膝体与视皮层构成了对视觉信息处理的三个基本层次。进一步分析表明,外膝体与视皮层有着更为复杂的分块结构(尤其是视皮层)。分块表明了视觉信息处理的并行性,不同区域的是神经细胞具有不同的功能;分层表明了视觉信息处理的串行性。因此,生物视觉系统是一个串行并行处理相结合的复杂系统。,生物视觉简介,1.2.2 感受野的分层等级假设,视觉通路上各层次的神经细胞,由简单到复杂,它们
17、所处理的信息,分别对应于视网膜上的一个局部区域,层次越深入,该区域就越大,这就是著名的感受野与感受野等级假设。感受野是支持视觉信息分层串行处理的最重要的生理学证据。,以信息处理的第一级为例,视网膜上的神经节细胞将感光细胞上接收到的光信号转换成电信号再由它的轴突传出,但每一个GC细胞只能接收视网膜上一个局部区域的信号,该区域就是GC的感受野。,GC感受野及其对光信号的转换作用分为:1、对空间亮度变化敏感的感受野。2、对时间变化敏感的Y型细胞。,生物视觉简介,1.2.3 视觉信息的并行处理,感受野的等级假设与局部性质主要支持视觉信息处理的自下而上的分层次串行处理,然而视觉系统的任务不是单一的,它要
18、识别物体的形状和颜色,要得到三维物体的深度信息,要检测物体的方位和运动参数等等。因此,视觉通路的各个层次上存在着基本互相独立的并行通道,分别完成不同的视觉任务。,生物视觉简介,视觉信息的处理是一个串行与并行相结合的复杂信息处理过程,但目前被人们认知的仅仅是一小部分,从信息处理角度看,迄今对大多数的处理单元的知识还非常有限,只知道这个单元对某种信息“敏感”,而信息是如何表征的、如何变换的,则仍不清楚,尤其是较高层信息的处理。,生物视觉简介,1.3.1 视觉系统研究的三个层次,Marr视觉理论框架,1.3.2 视觉信息处理的三个阶段,Marr视觉理论框架,Marr视觉理论的不足之处:,1、框架中输
19、入是被动的,给什么图像,系统就处理什么图像;,2、框架中加工目的不变,总是恢复场景中物体的位置和形状等;,3、框架缺乏或者说为足够重视高层知识的指导作用;,4、整个框架中信息加工过程基本自下而上,单向流动,没反馈。,改进的Marr框架:,Marr视觉理论框架,1、工业自动化生产线应用:产品检测、工业探伤、自动焊接等;,2、各类检验和监视应用:标签文字标记检查,邮政自动化,显微医学操作等;,3、视觉导航应用。巡航导弹制导、无人驾驶飞机飞行、自动行驶车辆等;,4、图像自动解释应用:对放射图、显微图像、医学图像、遥感多波段图像等进行自动判读理解;,5、人机交互应用:人脸识别、智能代理等;,6、虚拟现
20、实应用:飞机驾驶员训练、医学手术模拟、场景建模等。,计算机视觉应用领域,建立人类视觉的计算理论,并进而建成可与人类视觉系统相比拟的通用视觉系统是计算机视觉研究的最终目标。,1、如何准确、高速(实时)地识别出目标;,2、如何有效的增大存储容量,以便容纳下足够细节的目标图像;,3、如何有效的构造和组织处可靠的识别算法,并且顺利地实现,计算机视觉面临问题,视觉测量原理框图,工作时,被测工件处于生产线上,视觉测量系统安装在生产线的固定工位;或者被监测工件静止,而视觉测量系统集成在处于运动中的生产作业设备中。,1.5.1 视觉测量系统:,视觉测量系统与关键技术,OPENCV简介,人机交互 物体识别 图像
21、分割 人脸识别 动作识别 运动跟踪 机器人,OPENCV,练习作业,下载并安装OpenCV ,在Debug和Release两种模式下编译通过(http:/ 参考OpenCV例子程序,编写一个简单程序,读取并显示一副彩色jpg图像,同时转换为黑白jpg图像,并显示(参考cvCvtColor函数;)。,Why computer vision matters,Safety,Health,Security,Comfort,Access,Fun,Optical character recognition,Digit recognition, AT&T labs http:/ to convert sca
22、nned docs to text If you have a scanner, it probably came with OCR software,License plate readers http:/en.wikipedia.org/wiki/Automatic_number_plate_recognition,Face detection,Many new digital cameras now detect faces Canon, Sony, Fuji, ,Smile detection,Sony Cyber-shot T70 Digital Still Camera,Objec
23、t recognition,LaneHawk by EvolutionRobotics “A smart camera is flush-mounted in the checkout lane, continuously watching for items. When an item is detected and recognized, the cashier verifies the quantity of items that were found under the basket, and continues to close the transaction. The item c
24、an remain under the basket, and with LaneHawk,you are assured to get paid for it “,Vision-based biometrics,“How the Afghan Girl was Identified by Her Iris Patterns” Read the story wikipedia,Login without a password,Fingerprint scanners on many new laptops, other devices,Face recognition systems now
25、beginning to appear more widely http:/ recognition,Point & Find, Nokia Google Goggles,The Matrix movies, ESC Entertainment, XYZRGB, NRC,Special effects:shape capture,Pirates of the Carribean, Industrial Light and Magic,Special effects:motion capture,Sports,Sportvision first down line Nice explanatio
26、n on http:/ cars,Mobileye Vision systems currently in high-end BMW, GM, Volvo models By 2010: 70% of car manufacturers.,Slide content courtesy of Amnon Shashua,Google cars,http:/ interaction,Nintendo Wii has camera-based IR tracking built in. See Lees work at CMU on clever tricks on using it to crea
27、te a multi-touch display!,Digimask: put your face on a 3D avatar.,“Game turns moviegoers into Human Joysticks”, CNET Camera tracking a crowd, based on this work.,Interactive Games: Kinect,Object Recognition: http:/ Mario: http:/ 3D: http:/ Robot: http:/ in space,Vision systems (JPL) used for several
28、 tasks Panorama stitching 3D terrain modeling Obstacle detection, position tracking For more, read “Computer Vision on Mars” by Matthies et al.,NASAS Mars Exploration Rover Spirit captured this westward view from atop a low plateau where Spirit spent the closing months of 2007.,Industrial robots,Vision-guided robots position nut runners on wheels,Mobile robots,http:/www.robocup.org/,NASAs Mars Spirit Rover http:/en.wikipedia.org/wiki/Spirit_rover,Saxena et al. 2008 STAIR at Stanford,Medical imaging,Image guided surgery Grimson et al., MIT,3D imaging MRI, CT,The End,