增强现实技术为什么引起关注


随着近日,某家增强现实技术(Augmented Reality, AR)公司融资14亿美元,AR再度成为科技领域内一个追捧热点。其中到底藏着什么样的巨大前景这么被人们看重呢?


在说清楚这个秘密之前,我们先得区分另一个类似的技术——虚拟现实技术(Virtual Reality,VR)。两者的技术可能有重叠的部分,但应用场景则不同。


简单来说,假如有一天,你赶不上演唱会只能看直播,但不想放弃现场体验怎么办?没关系,戴上VR眼镜,你在家里就能如身临其境般感受最逼真的视觉体验。VR眼镜是不透明的,用于显示完全虚拟的世界,把物理世界完全挡住,即使坐在家里,你也能感到去大溪地“潜水”。 



而AR眼镜通常是透明的,让你能看到现实世界的景象,同时会由眼镜虚拟出一些图像叠加在上面。


总的来说,这些设备是计算机的必然发展趋势。自2007年iPhone面世以来,智能手机发展迅猛。用户随时随地带着它,各项使用数据毫无悬念地都在超越PC端。所以,人机交互界面的未来主要在于移动。但现在的手机局限在于,

(1)既然要便于携带屏幕就做得小,屏幕小了某些功能就得受限;

(2)显示屏幕是平面也就是二维(2D)的,而真实世界是三维(3D)的。


未来的透明AR眼镜有望实现大突破,既能让用户随身携带,又能在眼前显示超大屏幕,还能把以假乱真的3D内容渲染到人所看到的真实世界里。想象你坐在教室里自习,讲台上的老师看起来真实无比,但其实他就是在你的眼镜上虚拟出来的人。这样的眼镜大概不会完全取代手机,但毫无疑问潜力无穷。


跟VR比较,AR的应用场景更广阔。毕竟,我们一般不会戴着VR头盔在大街上逛吧。本质上,AR是VR的超集,镜片前面一挡就成了VR。


戴眼镜好麻烦,能不能裸视?


直接像《星球大战》一样,在空气中显示全息图(Holography)行不行?这样的美好愿景,有一天也许能做成,但近期看离实用还早。



现在有一些大学实验室的确在研究裸眼光场显示器(Light Field Display),但需要很复杂笨重昂贵的设备,还必须先安置才能使用。相对这些,做成眼镜的效果要好得多。轻便的AR眼镜将是移动人机交互界面上,也是计算机发展的重大革新。



在VR头盔前加个摄像头也能成AR,为什么非要做透明?


说起来AR有两种,一种是前面所说的透明AR(Optical See-through),人透过镜片能直接看到现实世界。另一种就是“视频叠加”(Video See-through; Video Overlay)——通过摄像头捕捉现实世界图景,然后以视频的方式呈现给用户,同时其中再渲染一些画面。事实上,现在手机和平板上已经出现了很多Video Overlay的应用,比如看星空,求翻译,选家具等。



那为什么不用VR头盔加摄像头实现这种AR呢?事实上,现在很多VR头盔都在试探这种做法。不过,它和透明AR相比各有优劣。其优势在于,用视频实现的虚拟和现实的叠加(overlay)要比透明AR简单得多。这也是为什么它已经开始在移动端商用的原因。


但劣势也可想而知,用户看到的毕竟只是一个2D视频,质量跟眼睛直接看到的世界差距很大。而且视频从采集到显示总是有延迟的,如果跟体感信号不一致的话会造成身体不适。所以不管怎样,还是会有公司追求更好的产品体验,前仆后继地去做透明AR的。


光凭这些就能融到14亿美金?


前面我们说了AR技术应用潜力,这只是资本看重的一方面,同时还有技术,创始人,团队的原因。


其实,该AR的核心技术来自华盛顿大学前研究员Brian Schowengerdt。 他导师Eric Seibel是光纤扫描内窥镜(Scanning Fiber Endoscope)的专家。大家都知道,内窥镜就是医生们做手术时用来体内成像的,本质是个微小摄像头。Brian很聪明地逆转光路,把这个技术用到了显示上。这样通过极细的光纤(如左图所示)用激光就可以打出彩色的图像。


这个技术十几年前就发表了[2],后来又不断改进,生成了一堆专利。该AR技术在很大程度上是基于Brian的这些专利。


那这种技术为什么重要呢?我们后面留成一个专门的问题讲。


然而光技术牛是不够的,要想做好AR眼镜,可想而知是需要软件硬件都得有重大突破。国际大公司可能有财力去做这个事,为什么他们认为一个初创小企业能做成?我觉得,其团队创始人Rony Abovitz起的作用非常大。他曾经在机器人手术(Robotic Surgery)上创业,做骨科手术精准定位。2004年创建的公司,2008年就上市了,后来在2013年以16.5亿美元被并购。听起来就是很牛,这种背景当然拉投资比较容易。


除了创始人兼CEO很牛,其团队也不一般,计算机视觉部分更有不少业内大牛。合作的团队更有在好莱坞给电影做特效的。而公司当年用来拉投资用的概念视频就像一个微型电影一样。



新技术核心:光场显示技术为什么对AR很重要


首先,光场显示技术基于极细的光纤,可以让眼镜做得轻薄。但更重要的是,Brian证明,这种光纤技术不仅可以投射出一个2D图片,还能显示出一个光场(Light Field)。


目前利用眼镜实现的3D主要可分成两种技术框架:Stereoscopic(中文翻译成“立体”,但其实不够准确),和Light Field(光场)。Stereoscopic眼镜早已商化,比如所有3D影院里用的,还有市面上几乎所有AR和VR眼镜/原型。而Light Field还只在实验室里有雏形。


什么是Stereoscopic 3D?为什么它不够好?又什么新技术核心是Light Field呢?


Stereoscopic 3D是假3D


3D图像比2D图片多了一个维度,这个维度就是景深(depth),其在感官上有明显的区别(只有少数人有双盲症不能看到)。


人眼感知景深有很多机制,包括单眼(monocular)和双眼(binocular)机制。单眼能感知的景深信号有很多种,比如:一个东西遮挡了另一个(occlusion),熟悉的物体的大小(relative size/height),物体移动的变化(motion parallax)——远的物体变化慢、近的物体变化快。所以在此基础上,人类双眼的景深信号也非常强:两只眼睛看到同一个场景会有细微差别,这让大脑能通过三角计算(triangulation)来得到物体景深。人类在远古时就有这样的感知,帮助他们很好地判断对面的老虎或者鹿到底离自己有多远。


Stereoscopic 3D也就是利用这个原理给双眼分别显示不同的图片(如下图),它们很相似,只在水平方向上有细微差别。而这两张图片拍摄的时候,就是用两个并排的相机模拟人眼的位置拍的。实际上,现在的3D电影也都是基于这个原理。通过一些光学技术把细微差别的画面分别传入左右双眼,以形成立体的感知。


但这样的Stereoscopic 3D有些问题。简单来说,它会引起用户身体不适如头晕、恶心等。为什么呢?这又涉及到另一个视觉原理。


当我们在看一个现实世界中的物体时,眼睛其实有两种自然反应:


(1) 聚焦(Accommodation/Focus):眼睛的晶状体就像一个凸透镜,它会调节凸度来让那个物体在咱们视网膜上清楚成像。


图片


(2) 会聚(Convergence):在每只眼睛聚焦的同时,两只眼球还会有旋转运动来一起指向那个物体。


图片

很自然地,这两种反射运动在神经上是联接的(Neurally Coupled),也就是说任意一种运动会自动引发另一种运动。这也意味着,在人眼看真实物体的时候,聚焦和会聚的距离总是相等的(Vergence Distance = Accommodation Distance)。


那么Stereoscopic 3D的问题就来了。因为Stereoscopic屏幕到眼的投射距离总是固定的,也就是聚焦不变,但对图片的感知会让眼睛会聚在不同的距离以产生景深3D效果(见上图B)。所以,这两种距离经常是不一致的,以至于造成这两种神经相连的运动强行分离(Neurally Decoupled)。