神秘 “上帝之眼” 掰弯你对世界的感官体验│想象力俱乐部

想象力俱乐部 2017-08-11
计算机视觉到底是什么



图片源自网络

可以试想下,当你走在路上,突然有一个球抛向你,你的下意识反应是?当然是躲开或者接住,正常人都会觉得这问题很白痴。


图片源自网络

但实际上,这个过程非常复杂,而我们还尚处于理解阶段,离重塑还非常遥远。这就意味着,发明机器视觉,是一项非常艰巨的任务,不仅是让电脑去做到非常困难,甚至我们自己都无法确定完整的细节。

首先球进入人类的视网膜,一番元素分析后,发送到大脑,视觉皮层会更加彻底地去分析图像,把它发送到剩余的皮质,与已知的任何物体相比较,进行物体和纬度的归类,最终决定你下一步的行动:举起双手、拿起球,而之前已经预测到它的行进轨迹。



图片源自网络

所以要将人类视觉完全复制到计算机视觉,并且更精准的捕捉一切事物,看似是一项非差高难度的工程。可是就有这么一个人,他坚持致力于研究这一技术,并且希望未来能应用到安防系统中,帮助侦破那些悬案,为人类未来生活提供更高安全保障,这个人就是赵勇。

演讲嘉宾
赵勇


格灵深瞳联合创始人、CEO,布朗大学计算机工程系博士,毕业后进入谷歌研究院,是Google Glass团队核心成员之一。
...
计算机视觉到底是什么



图片源自网络

可以试想下,当你走在路上,突然有一个球抛向你,你的下意识反应是?当然是躲开或者接住,正常人都会觉得这问题很白痴。


图片源自网络

但实际上,这个过程非常复杂,而我们还尚处于理解阶段,离重塑还非常遥远。这就意味着,发明机器视觉,是一项非常艰巨的任务,不仅是让电脑去做到非常困难,甚至我们自己都无法确定完整的细节。

首先球进入人类的视网膜,一番元素分析后,发送到大脑,视觉皮层会更加彻底地去分析图像,把它发送到剩余的皮质,与已知的任何物体相比较,进行物体和纬度的归类,最终决定你下一步的行动:举起双手、拿起球,而之前已经预测到它的行进轨迹。



图片源自网络

所以要将人类视觉完全复制到计算机视觉,并且更精准的捕捉一切事物,看似是一项非差高难度的工程。可是就有这么一个人,他坚持致力于研究这一技术,并且希望未来能应用到安防系统中,帮助侦破那些悬案,为人类未来生活提供更高安全保障,这个人就是赵勇。

演讲嘉宾
赵勇


格灵深瞳联合创始人、CEO,布朗大学计算机工程系博士,毕业后进入谷歌研究院,是Google Glass团队核心成员之一。



编者絮语:如果未来将有那么一双眼睛,它可以探索未来,看清世界,看懂世界。为我们生活带来更大的安全保卫,你是否想拥有呢?


《想象力俱乐部》赵勇演讲_腾讯视频


赵勇现场演讲



今天我来给大家讲述一下怎么样用计算机视觉、用人工技能来把这个虚构的电影情节变成现实。
一开始你们在屏幕上看到的这个好莱坞影片,它描述了一个非常神奇的系统叫上帝之眼。这个系统可以帮助美国政府随时随地的找到世界上任何一个角落的目标,但是这个环节是虚构的。



童年的梦想与憧憬
我小时候的一个憧憬和梦想。在我小时候,我是一个模型爱好者,我制作了很多模型汽车、模型飞机、模型快艇。但是这些玩具如果要玩它,你必须有一个遥控器去操纵它。那个时候我就在想怎么样赋予我的模型观察的能力、思考的能力,让它变成一个聪明的模型。那么我所在的领域已经耕耘了几十年,很不幸的是非常非常的难。如果今天让我们打开人类的大脑,这些是用非常先进的科技手段去扫描一个人的大脑看到的东西,你其实看不到中央处理器,看不到总线和内存。你看到的是数以千亿计的神经元。



什么是神经元?
它是非常非常小的一个思考和计算的单元,被很多叫做神经突触的东西连接成了巨形的网络。当科学家用计算机的硬件和软件受到这种结构的启发,建立起人工神经网络的时候,尤其是当这种网络的规模越来越大、越来越深奥的时候,我们可以训练一个机器具备思维和学习的能力。我们也训练了很多深度神经网络,其中的一个网络是让它来识别汽车的,它可以帮助我们从这些数据里面了解每一辆汽车背后的秘密。那么有了这些一个工具的话,让我们的客户了解在城市里每天发生了什么事,每一辆车辆运行的轨迹是什么,我们的城市是怎么拥堵的,我们城市运作的规律是什么。当然这个世界上最重要的目标就是人,所以我们也训练了专门的神经网络去识别别人的面孔,通过面孔能够识别出它背后的身份。可是当我们在真实的世界中去运用这种技术的时候却碰到一个非常麻烦的问题。



我给大家举个例子
2013 年在美国波士顿发生了一起暴恐案造成了很大的危害,其中有一位来自我们中国的女留学生也不幸的被炸死了。当时为了破这个案子警察还查看了波士顿当时这个街区所有的监控录像,他们找到了这么一张照片。但是很遗憾的是虽然这两个人离当时这个摄像头非常近还是不能够清晰地看出他们的面孔认出他们的身份。非常幸运的是在那一天有这么一位游客,他用手机拍了很多照片,他发现在他的某一张照片里站在街道对面的两个人非常像这两个嫌疑人,于是他把这张照片交给了警方,在这张照片的帮助下警方成功地锁定了目标,最终抓住了这张图里所示的恐怖分子。我们不禁会问为什么这两个人离相机只有几米的距离我们就看不清他的面孔呢?今天我站在舞台上,我离观众席最远的这个朋友也有几十米的距离,我感觉我能够认出来你们是谁。为什么人的眼睛既可以看得很广又可以看得很远呢?



现实生活中的“上帝之眼”
这就是我们的眼睛,从构造上来看,它跟一个相机非常接近,它也有快门叫瞳孔,它也有镜头,那么也有它的传感器或者叫胶片就是我们的视网膜。当我们看到我们眼球的时候,我们会发现它是一个广角镜头,每一个人的眼睛,单眼就有一百六十度的视场角,不信你们可以捂住自己的一只眼睛你们会发现,你们仍然可以看到很广。

两个眼睛加起来我们可以看到多达一百九十度的视场角,其实超过了一个平面。在我们的视网膜上,有一个很小的区域叫黄斑,它的直径大概就是一毫米的一个小坑。但有意思的是我们差不多有百分之七十五也就是四分之三的像素聚集在小小的黄斑上,这样一来我们就有了一个广角的相机和一个非常精确的望远镜结合在一起。

然后我们的眼睛连接着我们大脑,大脑里面有非常发达的神经网络,那么这个大脑可以帮助我们分析这个模糊的视野里面到底有哪些有趣的东西,然后它立刻转动我们的眼球把我们那个望远镜黄斑对准那个物体进行精确地扫描,这个就是我们人眼工作的方式。



如果今天我们去逛故宫,当我们走近太和殿,我们看到这么一个场景。可能我们的整个眼球一百六十度的模糊的视场角会告诉我们说宝座在哪里,牌匾在哪里。然后这个时候我们用我们的非常精确的黄斑去扫描这些物体,然后不到一秒钟以内,我们的眼球经过了数次转动,我们完成了一个又广泛又精确的观察。



于是,我们在人眼的结构的启发下,我们发明了一种完全不同的相机,我们给它们起名叫人眼相机。我们来看一下,人眼相机可以做什么,我们把这个相机放到一个比较大的广场上一个停车场,你可以看到这里有很多人有的有五六十米远,我们都可以精确地观察到他们在哪,我们可以在一两秒钟之内,把每一个人的面孔记录下来。他的面部照片传送到了后台的另外个神经网络,那个神经网络是识别每一个人的面孔并且跟一个巨大的数据库去关联,这样的话我们就可以得知它们所观察到的每一个人的身份。

那么讲到这里,我们来回顾一下,当我们的人工智能技术,当我们的运算摄影学技术,可以看清街上的每一辆车,可以看清环境里的每一个人。当这些传感器遍布整个城市,遍布所有道路,我们就了解了这个世界上每一个人的现状,每一个人的状态以及这个世界人和人之间是怎么交互和活动的。



下面我们再来看另外一个有趣的例子
比如说我们看这张照片,有一个人把一个红色的玩具汽车放在摄影机跟前,若不是他的手露出来了很多人会误以为这个玩具汽车是一辆真实的汽车。而在这张照片里在背后有一辆真实的汽车,只是因为它离画面比较远,所以它显得非常小换句话说我们的图像本身并不能告诉我们尺度,丧失了尺度,我们就丧失了对距离的测量,对速度的测量,这是一个很可怕的事。



我们来回想一下,在自然界中有很多动物他们是需要捕猎的。但我们来看一下捕食者的眼睛,它们像我们人类一样把这两只眼睛长在前面,因为人类本身也是捕食者。

眼睛长在前面的好处是什么呢?
每一个物体都会在两个眼睛里面都成像,但成像的位置有一个小小的差别,这个差别我们叫视差。那么通过这个视差我们就可以做一个三角运算,把这个物体在眼睛前面的距离给推算出来,这样一来我们就知道了深度信息。有了深度我们就有了速度,就有了加速度,这样就可以确保我们在奔跑的过程中能够更精确地完成我们的任务。那么在这个原理的启发下,我们发明了一种成像的设备叫三维深度传感器。我们把这样的设备造成了相机,然后你可以看到这样的相机,它不只可以帮助我们看到画面,还可以帮助我们看到画面中每一个物体它到相机的距离。



有了这些信息我们就可以把空间中每一个人的动作,无论是他的轨迹还是他的姿态动作,他的肢体动作全部都计算出来,这样的信息非常重要。



你可以想象未来你们家有一台机器人,你可以跟它打招呼,它可以看懂你在做什么。或者说在一个空间里,在一个学校里面,比如说一个体育学校有一个学生在学习打棒球,那么这套技术就可以帮助他自己了解到他的动作是不是精确,是不是到位。那么计算机视觉可以帮助我们去观察整个世界,这个世界有很多很多内容,但是这些内容是我们自己,在我的愿景中十年以后我们的互联网上有一千亿个网民。当然我们已经没有这么多时间生这么多的孩子了,那么这么多网民从哪来,他们不是人,他们是人工智能。

这些人工智能可能潜伏在每一个路灯里,每一个电视里,每一个冰箱里,每一个摄像头里,每一个汽车里。可能未来你的水杯里面都有一个有趣的人工智能。我们想象有一天,你走进家里,你家里的空调认出来你,立刻根据你自己的喜好来调节家里的温度,你们家的墙壁用了柔宇科技的屏幕装修过了它立刻知道赵勇喜欢海景房,立刻把房间变成了海景房,或者它知道我夜里的时候喜欢仰望星空,它会把新西兰的星星全部都显示在我们家的天花板上。我可以看到银河,左边是瀑布,右边是竹林,脚下是九寨沟的鹅卵石和小溪。但是要实现这一切就要求你的家庭了解你、认识你、关注你。



用柔性屏做件隐身衣把自己藏起来深瞳还能看到吗
上千年以前有个科学家叫亚里士多德,他对眼睛的定义或者说对成像的定义是什么:从每个人的眼睛里面会发出来看不见摸不着的手。这些触角在整个世界里面去摸索,他们把你们摸索到的东西传回了眼睛,事实上我们刚才介绍的这个三维相机就是这么一种相机。它往外差不多同时在发三十多万份激光,它在摸这个世界,然后这些它发出的这些光子就像信号兵一样它出去之后它要带着它探索的结果回来了。



人脸识别如何防骗
对于这种技术,我觉得大家应该慎重使用。我给大家举一个例子,我们知道今天我们有一种常见的违法犯罪的行为就是套牌车。也就是说从视觉上这两辆车是一样的,那我们怎么识破它呢?我们用的做法就是传感器网络时空比对,因为一辆车是不可能在同一个时间出现在两个不同的地方的。当我们一旦发现这些轨迹有矛盾的时候那么我们就知道,这里面一定有一个是李逵,一定有一个是李鬼。所谓安全区域往往我们会结合更多的信息,来判断这个事物的本质是什么。



安全性和隐私,你选哪个
曾经最受关注隐私问题的欧洲他们现在饱受恐怖主义的困扰,连他们都开始在他们的公众场所装各种各样的摄像头。然后到中国来寻找好的技术来保卫他们的安全,在这个时候对他们来说安全比隐私更重要。所以我觉得我们在考虑隐私问题的时候一定也要去考虑我们得来不易的安全是怎么得到的,它的代价是什么。在这个过程中如果想把这个平衡做好的话就一定要做好数据的保护和使用这个权利在谁的手里该怎么去行使它,这个非常非常重要。



分享了那么多,希望未来可以让机器学会看人,看懂世界,为人们提供更安全可靠的保障,这就是我心中的未来,一个具有感知能力,思考能力的未来。
显示全文

查看更多主题的豆瓣日记和相册

想象力俱乐部
作者想象力俱乐部
5日记 0相册

全部回应 0 条

添加回应

想象力俱乐部的热门日记

值得一读

    豆瓣
    我们的精神角落
    免费下载 iOS / Android 版客户端