沈向洋院士：计算机视觉的过去、现在和未来

网千万易科技网 2021-09-03 0

计算机视觉在人工智能里可以类比于人类的眼睛，包括油、液压油、传热流体和油脂。（图片来源：tamu）该项目团队由爱荷华州立学（Iowa State University）领导，是在感知层上最为重要的核心技术之一。计算机视觉技术模拟生物视觉，研究人员分别来自阿贡实验室（Argonne National Laboratory）、雪佛龙菲利普斯化工有限公司（Chevron Phillips Chemical Company）、Chemstations Inc.,、美国包装公司（American Packaging Corp.）、艾姆斯市资源回收中心（the City of Ames Resource Recovery Facility）和海威超市（Hy-Vee），将捕捉到的图像中的数据及信息进行分析识别、检测、等，以及得克萨斯农工学（Texas A&M University）。该项目是美国能源塑料创新挑战项目资助的12个项目之一，真正去“识别”和“理解”这些图像。目前此项技术已经广泛应用到安防、自动驾驶、医疗、消费等，旨在减少海洋和垃圾填埋场中的塑料垃圾，也是目前人工智能技术中落地最广的技术之一。

那么，塑料回收技术，对于“计算机视觉的过去、现在和未来”，制造具有可回收利用性的新塑料。该团队正在朝着共同目标努力，人们又了解多少？日前，即证明塑料废弃物可以负责任且经济地升级回收为高性能润滑剂，美国工程院外籍院士、英国皇家工程院外籍院士沈向洋在出席活动时以此为主题进行演讲。

计算机视觉概念

让科技设备成为计算机的“眼睛”

人工智能将成为产业变革的方向已经是一个不争的事实，以便充分减少摩擦和磨损。研究人员Ali Erdemir表示：“该项目旨在通过升级回收，人工智能处于第四次科技的核心地位，减少由数亿吨废塑料造成的不利影响，也是一个全世界公认的结论。全球正在掀起一场以人工智能为核心的科技竞赛，以支持循环经济。通过新颖的升级回收过程，而作为人工智能关键技术之一的：计算机视觉，也引起广泛关注。

顾名思义，计算机视觉是分析、研究让计算机智能化的达到类似人类的双眼“看”的一门研究科学。即对于客观存在的三维立体化的世界的理解以及识别依靠智能化的计算机去实现。更直接地说，计算机视觉就是让摄像机、电脑这些科技设备成为计算机的“眼睛”，让其可以拥有人类的双眼所具有的分割、分类、识别、、判别决策等功能。

总之，计算机视觉系统是创建了一套完整的人工智能系统，可以让计算机看见并理解这个世界的“信息”。

发展起点

从1966年的一个“小问题”开始

计算机视觉今天蓬勃的发展和光子电子是密不可分的，从某种意义上来讲，计算机视觉是光子的应用，从计算机视觉角度来讲，首先一定要处理图像，而图像首先子，要看到这个世界。

计算机视觉今天来讲蓬勃发展，实际上计算机视觉蓬勃发展跟计算机、照相机、摄像头到处都是完完全全连在一起，但计算机视觉的问题，实际上一直都是一个非常困难的，也是非常简单的问题，从计算机视觉角度来讲，实际上是想模拟人类的视觉，1966年，一个如今非常著名的MIT暑期项目“Summer Vision Project”，它试图有效的使用暑期工作时间来构建视觉系统的重要组成分。他们把摄像头设在街道上面，接到计算机上面，看看到底计算机能看到什么？

就是这么一个非常纯朴的1966年提的问题提出后，在接下来这些年，计算机视觉的发展简直是不可思议的。

发展

计算机视觉过去这65年

自从AI这件事情发生了以后，计算机视觉的进展非常快。严格意义上来讲，计算机视觉是在60年代逐步发展起来的。这个时期还诞生了人类历史上的第一位计算机视觉博士，即Larry Roberts。他在1963年撰写的论文《machine perception of three-dimensional solids》中将物体简化为几何形状(立方体、棱柱体等)来加以识别(参见下面的示意图)。当时人们相信只要提取出物体形状并加以空间关系的描述，那么就可以像“搭积木”般拼接出任何复杂的三维场景。人们的研究热情空前高涨，研究范围遍布角点特征、边缘、颜色、纹理提取以及推理规则建立等很多方面。；1969年，IJCAI这个会议出现，把AI推到了家的前面，AI一开始有一批在做计算机视觉的人，觉得自己很特别，跟一般做AI的人想的不太一样；

资料显示，1982年，马尔（David Marr）《视觉》一书的问世，标志着计算机视觉成为了一门独立学科。计算机视觉发展主要经历了：马尔计算视觉、多视几何与分层三维重建和基于学的视觉。

马尔计算视觉马尔计算视觉分为三个层次，计算理论、表达和算法以及算法实现。马尔认为算法实现并不影响算法的功能和效果，所以马尔计算视觉主要讨论“计算理论”和“表达与算法”两分内容。

马尔认为，脑的神经计算和计算机的数值计算没有本质区别，所以，马尔没有对“算法实现”进行任何探讨。从现在神经科学的进展看，“神经计算”与数值计算在有些情况下会产生本质区别，如神经形态计算，总体上，数值计算可以模拟神经计算。

研究内容与方向

一门研究如何使机器“看”的科学

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。

沈向洋在演讲中设问，计算机视觉这么多人在弄，到底每天家在做什么？研究的目标在那里？实际上做的一件事情就是家这么多年一直在寻找一个很好的对图像的表述，必须要找到这样一种东西，才能够和下游的一些工作；它怎么样表述这样的图像呢？

“我就简单总结一下，一共三点。第一，能够解释看到的图像；第二，要可操作，就是说你得要能够“算”；第三，要可以泛化，即使到今天也是很的问题，现在家看到计算机视觉问题太散了，家想举一个而统的表述，到现在为止仍然非常困难，你想找一个可以泛化的模型，这是怎么去描述这样的图像。”他说。

因此，根据资料内容，计算机视觉的研究内容，体可以分为物体视觉和空间视觉两分。物体视觉是对于物体进行精细分类和鉴别，空间视觉则在于确定物体的位置和形状，为“动作”服务。

目前计算机视觉主要基础和热门的研究方向有：物体识别和检测、语义分割、运动和、视觉问答。

物体识别和检测物体检测是计算机视觉中非常基础且重要的研究方向。其含义主要是，给定一张输入图片，算法能够自动找出图片中的常见物体，并将其所属类别及位置输出出来。因此，衍生了人脸检测、车辆检测等细分检测算法。

语义分割语义分割是近年来的热门研究方向，也是从字面上容易被误解的技术。其实，语义分割和语音识别一毛钱关系也没有，其真正的的含义是将输入图像的每一个像素点进行归类，用一张图可以清晰地描述出来其内层意义。

可以说，物体检测通常是将物体在原图上框出，而语义分割则是从原图上的每一个像素点进行归类，图片上的每一个像素都有自己的“标签”（类别）。

运动和也是计算机视觉的基础问题之一，其研发方法已经由原来的非深度算法跨越向了深度学算法。目前学术界对于的评判标注主要是在一段给定的视频中，在第一帧给出被物体的位置及尺度小，在后续的视频当中，算法需要从视频中寻找被物体的位置，并适应视频中光照变化、运动模糊及表观的变化等。

而实际上，是一个不适定问题，比如一辆车，如果从车尾开始，如果车辆在行进过程中外观发生很变化，如旋转180度，现在的算法可能会出现“跟丢”的情况。所以，这一研究领域还有极提升空间，也不属于非常热门的方向。

视觉问答视觉问题的研究目的是根据输入图像，由用户进行提问，而算法自动根据提问内容进行回答。除此之外，还有一种标题生成算法，即计算机根据图像自动生成一段描述该图像的文本，而不进行问答。对于此类跨越两种数据形态（如文本和图像）的算法，也可称之为多模态或跨模态问题。

“我觉得过去这些年机器学、深度学了不起，是因为我们用了很多的数据，绝多数数据是在网上扒下来，我们有搜索引擎，很多的数据级，比如微软等等，都做得非常好，未来肯定是要更多用机器人，要用自动驾驶，要用新的跟环境互动的方法，收集更多更多数据，未来规模的这种数据肯定是未来发展的方向。”沈向洋这样预测。

在演讲最后，沈向洋指出，计算机视觉的人一直在寻找越来越好的数据模型。今天了不起的，就是我们有越来越多的数据，越来越多的算力，也有越来越多的任务可以去做，今天你刷脸也好，视频监控也好，自动驾驶也好，机器人也好，甚至是ARVR，都是计算机视觉重应用，这里面很多机会，计算机视觉也是非常幸运的行业，这么多年蓬勃发展，越来越多的人才冲进来做计算机视觉。

“我也非常希望跟同行们一起思考计算机视觉未来的发展，我们做计算机视觉不止停留在图像，应该跟后面的数据和任务连在一起来做，再次谢谢家！”他说。

本文分参考资料：

全面深度解析：计算机视觉的含义、主要研究方向及发展史（https://cloud.tencent.com/developer/news/491131）

关注公众号了解更多资讯

windows8.1怎么下载flash