从2011年至2017年,我国的计算机视觉行业市场就飞速增长了7倍之多,如今每年的增长速度都维持在两位数。
“黑夜给了我黑色的眼睛,我却用它来寻找光明”。对人类来说,眼睛是获取外界信息的主要来源之一,而对于智能机器人来说,计算机视觉就是它们的眼睛,不同于人类的眼睛,计算机视觉图像处理、机械工程、电光源照明、光学成像、传感器等多项技术,但通过器代替人眼来做出判断和测量是否会更加准确呢?
飞速崛起的技术
首先要明确,不仅仅是安防领域,可以说全球各个领域都在关注计算机视觉的发展,包括工业、农业、交通、医药、军事等各大行业,尤其是在工业4.0智能化和自动化的需求之下,市场前景非常广阔,从2011年至2017年,我国的计算机视觉行业市场就飞速增长了7倍之多,如今每年的增长速度都维持在两位数。
而对于安防行业而言,计算机视觉出现频率最多的恐怕就要数智能监控和智能交通领域了。例如在智能交通领域里,计算机视觉进行车辆的检测、车辆的身份识别、车辆身份的比对、车辆的行为分析,以及在汽车辅助驾驶与无人驾驶领域中进行驾驶控制。计算机视觉的广泛应用,能够大大提升智能交通系统的感知精度与维度,让智能交通系统更加智慧。
如今,计算机视觉巨大的应用市场和商业化运作吸引了不少资本的关注和投入,上个月的时候,阿里云ET城市大脑发布的“天擎”系统引起了大家的广泛关注,这种技术正是基于计算机视觉技术而诞生的。但是在火爆的市场背后,这种技术真的就“大丈夫”吗?
计算机视觉
通常我们说的计算机视觉,或者叫机器视觉,主要分为四大组成部分:图像分类、对象检测、图像分割、图像描述。
图像分类基本上仅涉及基于图像的内容标记图像。通过一系列的数字和标签来描述一种事物的图像,不过对于计算机来说,这个步骤是很复杂的,目前最强的几家企业,错误率仍在3%以上。
对象检测简单的理解就是视频或者图片之中有什么,涉及识别各种子图像并在每个识别的子图像周围绘制边界框,和图像分类相比,难度有所提升,处理过程中必须要更多地处理图像坐标。
图像分割则是在对象检测的基础上更进一步,不仅仅要标识出画面中有什么,同时要基于现有对象对图像进行分割,具有精确的边界,这就需要对每个对象进行标记,同时要每个像素,如果画面中有一大群人,那么就需要把每个人都单独用一种颜色表示出来。
最难的也是最炫酷的技术就是图像描述,这不仅仅需要计算机视觉技术的辅助,同时也需要自然语言处理的相关知识,让计算机自动对图像进行描述。
不过上面这几种仅仅是人们对于计算机视觉的初步了解,或许正是计算机视觉的复杂性,导致很多时候它很容易被欺骗。
现实的壁垒
不可否认,如今的计算机视觉技术已经有了长足的进步,但是和人类相比,依旧有很大的差距,究其原因,是因为机器是非常狭隘的,它只能通过现有的、固定类别的图像进行学习,没有联想的能力,而人类在生命的每个阶段都会不断收集数据,同时通过形象化而非固定的记忆来保存数据。
举个最简单的例子,人类看到一只猫,会自然联想到不同姿势和不同角度的猫,而对于机器而言,通过一系列有猫的图像进行训练之后,就会认识什么是猫,但如果机器看到姿势不一样或者角度不一样的猫,也许计算机就会进行错误的分类。最直接的表现就是在一张图片中加入肉眼几乎不可见的噪点,人类依旧可以正确判断图片中的内容,而机器则很容易被愚弄,从而出现错误的答案。
于是,人们在应对计算机视觉技术的时候,也就有了一些新的思路。当面对街上大量的带有人脸识别功能的监控时,戴上一顶具有反光效果的帽子,或者在脸上贴上几个胶条就能轻松破除人脸识别的追踪。而有些黑客组织在攻入带有计算机视觉功能的系统之后,只要稍稍在画面中加入一些噪点,就能轻松让计算机视觉彻底失去功效。
帮尼有话说
计算机视觉技术的成熟将会为众多产业带来革命性的变革,前提是视野非常清晰,画面没有任何的瑕疵,尽管计算机视觉在图像分类、图像描述等方面的技术日渐成熟,但有些时候不妨换个角度,通过计算机的视角来理解深度学习,尽管这被不少人吹得神乎其神,但究其本质,计算机视觉依旧是通过现有数据在框定的范围内进行摸索,难以从事多功能的任务或是进行思维的扩展。