首页 » 智能 » VR 不完全科普指南_物体_透镜

VR 不完全科普指南_物体_透镜

雨夜梧桐 2024-12-09 17:53:27 0

扫一扫用手机浏览

文章目录 [+]

一、上帝的画笔

你有没有想过创造一个天下?

VR 不完全科普指南_物体_透镜 智能

或者,如果让你当创世神的话,你知道该怎么布局这个天下吗?

千百年来,人类一贯试图回答这个问题:用措辞、用图像、用视频。
可是还是不足。
我们从未能真正重现我们所感想熏染的天下,只能凭借真实履历的脑补,将它们当做真的而已。

媒介限定了我们对天下的描摹。

有没有一种办法,能够让我们真正地拿起上帝的画笔?

有一群人,试图用 VR 给出答案。

VR 的历史可以追溯至 20 世纪 60 年代,Philco (现被飞利浦收购)的两位工程师 Charles Comeau 和 James Bryan 制造出了一款用于军事目的头戴式显示器 HeadSight,该设备能够显示来自隔壁房间摄像头的视频画面,摄像头的位置可根据佩戴者的头部移动而移动,从而塑造出一种临场感。

图一,图片来自 THE VR SHOP

作为人类历史上的第一款量产头戴式显示器,Philco Headsight 的视场角仅有 40°,刷新率也仅有 10 Hz,而重量则是…未知。

60 余年过去了,早 Philco Headsight 五年的达特茅斯会议,经历过潮起潮落,终于在上一年迎来了它们最重磅的主角:ChatGPT。

而头戴式设备也并非吴下阿蒙,空间定位、眼动追踪、手势识别、Micro LED、Pancake 光学模组,硬件、算法与工程学的结合,让上帝的画笔呼之欲出。

接下来,就让我们进一步走进 VR 的天下。

二、我们该当如何呈现天下?

正如把大象塞进冰箱须要三步,制造一台 VR 设备也是如此:

让天下在我们的面前呈现。
让天下与我们进行实时地交互。
把统统都塞到一台头戴式设备上,让其独立运行。

我们先来谈第一步。

让天下在我们的面前呈现,这件事我们并不陌生,已然创造了一个赛博天下的我们,透过手机的屏幕,另一个天下的光映入眼中。
把手机换成 VR 设备,道理也是一样的:我们须要一块屏幕,然后我们把屏幕的光映入眼中。

1. 一块屏幕

我们须要一块屏幕,以显示另一个天下的丰富。
古早的时候,由于看重 AMOLED 的色彩饱和度,VR 显示屏用的都是 AMOLED,但 AMOLED 的像素密度低且难以提升,并且存在纱窗效应(像素低导致的,人眼可以看到像素点),以是便改换成了 LCD 。

LCD 是液晶显示屏,比拟度、色域、亮度都不足,同时刷新率低。
为了改进 LCD,Fast-LCD 又被引入,顾名思义,Fast-LCD 采取了超速驱动技能,刷新率可以提升到 75-90 Hz,同时用了新的液晶材料,呈像效果上也有所改进。

但 Fast-LCD 仍旧存在问题,由于是背光技能,不能自发光,须要有背光光源,以是面板上随意马虎涌现漏光征象。
为理解决这个问题,业内常日采取 Fast-LCD + Mini LED 背光光源的方案,将 Mini LED 作为 Fast-LCD 的背光光源。
Mini LED 实际上便是在背板上集成了尺寸更小的 LED 灯珠,以是亮度、比拟度都会有所增强。

目前,Fast-LCD + Mini LED 背光光源已成为 XR 设备的主流方案, 但 Micro OLED 和 Micro LED 将是未来的探索方向。
两者都是自发光技能,无需背光,无论从色域、亮度、比拟度,还是功耗、分辨率等方面都领先其他方案。
随着Apple vision pro 采取 Micro OLED,Micro OLED 的发展将进一步加速。

图二,表格由 MicroDisplay 整理

2. 把光映入眼中

如果说把手机的光映入眼帘,是一件再自然不过的事。
VR 设备的光就有所讲究了,从业者至少须要办理三个问题:

近眼成像:视力正常者的最小物距(物体间隔眼睛的间隔)是 14 cm,而 VR 设备的屏幕物距仅 3-4 cm。
深度感知:VR 设备的屏幕呈现的是 2D 画面,而沉浸式体验须要 3D 呈现。
视觉放大:VR 设备的屏幕仅为普通眼镜大小,而 VR 画面渲染须要与现实天下同等尺寸乃至更大。

乍听起来,三个问题都如天方夜谭。
然而沾恩于神经科学和认知科学的发展,也得益于自托勒密时便兴起的视错觉研究,看似无能为力的问题亦都有理解法。

这都要从人的视觉机制提及。

1)人眼的视觉机制

人眼是如何看到事物的?不妨以摄影机作喻:人眼是凸透镜成像,晶状体是摄影机镜头,视网膜是摄影机胶片。

图三,图片来自网络

物体光芒从瞳孔进入眼睛,经由晶状体(凸透镜)折射,终极形成在视网膜上的倒立实像,经由人脑的算法自行复为正位。

凸透镜的成像事理,初中时都学过,透镜把平行光芒汇聚于一点,形成实像/虚像。
近大远小实际上也是由于凸透镜的浸染(经由轴心的光芒入射角减小,以是高度增加)。

图四,表格来自均一教诲

如图所示,焦距固定,物距不同时,成像的间隔也有所不同。
当物距小于焦距时,物体成虚像,也便是放大镜的功效。

图五,图像来自百度百科

2)凸透镜的浸染

利用凸透镜成像的规律,把光映入眼中的个中两个难题就可以解了。
根据上图可得,当物体放置到透镜的一倍焦距内,便会在一倍焦距到二倍焦距之间形成一道正立放大的虚像。

什么是虚像呢?即物体的光经由反射而映入眼中的,光与光之间不能形成交汇,但人眼下意识以为光是直线传播的,以是会自动反向延长光芒,使其交汇于一点,从而形成虚像。

图六,图片来自光学影像与镜头

VR 的事理和人眼一样,利用了凸透镜的浸染。
通过在人眼和屏幕间放置一块凸透镜,屏幕放置于透镜的一倍焦距内,使其在 2 倍焦距出形成了屏幕内容的虚像,根据 B 站 Up 主消逝的模因推算,大概是 280 英寸的巨幕大屏。

图七,图片来自 Up 主消逝的模因视频截图

由于凸透镜的浸染,屏幕的成像间隔也被调度,如 Quest 2 的像距在 1.3 m,已经能够知足人眼的不雅观看范围了。

不过,由图六可知,人眼与透镜、透镜与屏幕间,都须要保持得当的间隔。
如果透镜离人眼过近,像距也会被拉近,从而不能知足人眼的不雅观看范围。
如果透镜过远(仍要小于焦点),那全体设备的体积又会增大。

透镜的间隔也影响着 FOV 的大小。
这里要再轻微阐明下 FOV 的观点,一样平常我们所评论辩论的都是水平 FOV(field of view),是指屏幕被透镜折射,最顶部和最底部的两道光芒射入人眼所形成的夹角。

FOV 越大,人在屏幕中所看到的虚拟视野就越大。
但问题在于,想要增加 FOV,要么把透镜后移,让其更靠近人眼,或者增加镜片的厚度。
透镜后移,会导致像距被拉近,不能知足人眼的不雅观看需求;增加镜片厚度,又会导致设备整体过重,并且同样的,像距依然会有问题。

实际上,FOV 并不是越大越好。
现实天下中,人正常聚焦的视野范围一样平常在 110°,如果物体涌如今 110° 外,人一样平常要转头去看,增加疲倦度。
以是,只要担保 FOV 在 110° 旁边,实在也就够了。

另一方面,透镜所呈现的放大版屏幕,实际上是原来屏幕的投射,屏幕分辨率是没有变的,FOV 越大,对屏幕分辨率哀求就越高,差的屏幕乃至能看到像素点。
从工程学而言,找到 FOV 同屏幕、透镜厚度、设备整体尺寸的平衡关系,才是实际的难点。

3)透镜的演化

在实际工程中,透镜的演化,或者说 VR 中光学方案的演化,大体可以从非球面镜片到菲涅尔镜片,再到 pancake 折叠光路。

图八,图片来自网络

一样平常的球面镜片,镜面各处曲率相同,以是光从镜片折射出来,会聚焦在不同的位置,也因此导致模糊和外围失落真的情形,这种征象被称为球面像差;非球面镜片便是在球面镜片的根本上,改变表面的曲率,使得折射出来的光能够汇聚在一点上。
这样,球面像差的问题就能得到缓解或肃清;但非球面镜片有个问题,它太重了。

于是菲涅尔镜片被搬到了 VR 中,大略来说,透镜的紧张浸染是为了折射光芒,而透镜中存在一部分区域不折射光芒,既然如此,直接把这部分拿掉,也完备不影响透镜的功能。
菲涅尔凭着这样的办法,减了一波重量。

但菲涅尔镜头各处曲率不变,焦距无法进一步被压缩,整体仍旧较重,VR 眼睛也无法做得轻薄;同时由于曲面不连续,成像精度受限。
非球面和菲涅尔镜头,都是采取平行光路的方案(光从透镜中透出,进入人眼)。
想要再轻薄,目前最佳的实践是采取折叠光路(拉近焦距,通过多重反射进入人眼,既缩小焦距又担保成像)。

pancake 的名字也反响出了它的构造,便是像饼干一样的四层镜片(各家有不同,如果用 micro led 会有五层),它的光学事理不必穷究(反正也搞不懂),只需记住它的办理方案是通过折叠光路使得焦距近一步被压缩。

焦距被压缩,实在不单改变厚度,也改变了视场角,近大远小,焦距变短,那视场角就会变大。
当然这只是理论上的(理论上限 pancake 可达 200°),现实中由于工艺的问题,pancake 方案的视场角还没有菲涅尔广,在 60 – 90° 之间,而菲涅尔可以达到 100° 旁边,当然,离人眼的 120° 还有一段间隔。

当然,pancake 也有自己的问题,由于有两次反射的缘故原由,理论上 pancake 的入射光芒亮度只有一开始的 25%,这就哀求光源本身得很亮。

同时由于多路反射,随意马虎涌现鬼影的情形,对工艺哀求很高。
但这些都是可办理的问题,平行光路有它的上限,如果要塑造沉浸感 + 便携的设备,折叠光路还是更好的方案。

由于 pancake 「损光」的特性,屏幕亮度就显得尤为主要,目前主流的搭配仍旧是 Fast LCD + Mini LED 背光+ Pancake,但更空想的办法是 Micro OLED + Pancake,比较于传统 LCD 的 500 尼特亮度,Micro OLED 的亮度可达 1000-6000 尼特。

其余值得一提的是,既然是折射,画面一定会失落真。
现行的光学方案都是先让屏幕中显示的画面先失落真(桶形畸变),再通过透镜折射规复正常(透镜会通过枕形畸变将桶形畸变的图像规复正常)。

图九,图片来自 POMEAS

4)沉浸感的实现

如果说凸透镜办理了近眼成像和视觉放大的问题,那么还留存着一个尚待办理的问题:深度感知。
这也是实现 VR 沉浸感的关键。

办理方案实在再大略不过,只需在透镜前放置两块屏幕(或一块屏幕隔成两块),分别呈现同一图像的不同成像角度即可。

图十,图片来自网络

人眼是个非常神奇的存在,实质上当我们看向三维物体时,旁边眼看到的实在是同一物体的不同角度的平面成像图像。
当两种不同角度的图片到达人脑后,人脑内置的视觉算法可以自动将两张平面图片合成一张立体图片。

VR 成像,由于所有的内容都只呈现在屏幕上,而屏幕是平面的,以是无法像真实的三维物体一样,由于视差(两眼看到的角度差异)的存在而感想熏染到立体感。
以是,一不做二不休,干脆在两块屏幕上呈现同一物体的不同成像画面,利用大脑的自动合成功能,仿照立体感知。

虽然,双目视差的机制让 VR 眼镜能够仿照三维影像的立体感。
但沉浸感除了立体,还有对付深度信息的感知。
简言之,怎么区分物体离我们的间隔。

5)远近感知

人眼感知天下的办法,紧张依赖四种机制:

双目汇聚(vergence)双目视差单眼调节(Accommodation)大脑补充

个中,双目汇聚、单眼汇聚和大脑补充都能帮我们感知到天下的远近信息。
在日常感知中,大脑补充实在是最为常见的体验,由于我们在不雅观看视频时,视频画面本身是 2D 的,可我们却能从中止定出物体的远近,很主要的缘故原由便是大脑补充。

大脑补充,简言之即人脑根据履历的总结,通过一些画面线索进行的间隔判断,比如近大远小(学名仿射)、遮挡关系(近处遮挡远处)、光照阴影、纹理差异、先验知识(比如飞机和鹞子同样大,但飞机比鹞子远)。
这些知识学过画画的同学不会陌生。

双目汇聚(vergence),大略理解,是指两只眼睛看向同一物体,这个过程须要迁徙改变眼球肌肉,使得双眼聚焦同一物体。
当物体靠近或阔别眼睛时,汇聚角(图中所示的夹角)也会变大缩小,同时眼部肌肉会紧缩或放松。
也即,通过感知汇聚角的范围和睫状肌的紧张程度,人眼可以分辨物体的远近。

图十一,图片来自 Relative contributions to vergence eye movements of two binocular cues for motion-in-depth

单眼调节(Accommodation):眼睛依赖睫状肌进行聚焦掌握,越靠近人眼的物体,成像会越模糊,通过模糊程度判断物体的远近。
当眼睛聚焦在近处物体时,远处物体会模糊;相反,当聚焦在远处物体时,近处物体会模糊。

单眼汇聚只依赖单眼即可判断,一个范例的实验是:闭上一只眼睛,旁边手分别竖起一只手指,与眼睛呈一条直线。
当眼睛聚焦于近处手指时,远处手指模糊;反之亦然。
实质上,单眼汇聚和双目汇聚是一体两面的存在,前者见告大脑物体离人眼的绝对间隔,后者见告大脑双眼视线形成的绝对角度,两者都是在物理上可丈量的。

VR 中的远近信息通报,紧张利用了大脑补充,但由于屏幕的间隔是固定的,透镜的间隔也是固定的(pancake 之前),以是双目汇聚和单眼汇聚的信息是缺失落的,而这也直接导致了所谓的 VAC 问题。

在真实天下中,人眼的汇聚间隔和调节间隔该当是同等的(不雅观看远处物体时,眼睛聚焦到远处;不雅观看近处物体时,眼睛聚焦到近处),反响在物理层面则是掌握眼球迁徙改变的眼部肌肉和掌握聚焦的睫状肌同步运动 。
但 VR 中,由于像距是固定的,因此无论不雅观看画面中的远处或近处物体,眼睛都只能聚焦到屏幕上,这时,双眼肌肉与睫状肌便不再同步了。

图十二,来自维基百科

一样平常而言,有两种办法办理 VAC 问题。
一种是光场技能, VAC 的实质是由于屏幕不含深度信息,而采取脑补的办法进行仿照,从而导致了眼部肌肉与睫状肌的不折衷。

那如果让屏幕发出的光,一开始就不相同(比如画面中的远景发 A 光,近景发 B 光),人眼就可以得到深度信息,问题就得以办理了。
另一种办法是通过可变焦距 + 眼动追踪办理(第三部分会详述)。

眼动追踪确定用户的把稳焦点,通过可变焦距实时改变焦点处的焦距,进而改变成像间隔,使得会聚间隔与调节间隔保持同等。

目前光场技能还不成熟,而业内已采取的 pancake 方案可以实现多重变焦,有望在第二种方案上实现打破。

三、天下该当如何与我们交互?

以上我们所谈论的仅仅是静态的呈现,而真实天下是动态的,我们每时每刻都在与天下本身交互。
因此,只管静态的 VR 天下已经如此弘大,我们仍旧不能停下来,容身欣赏此刻的成果,更困难的事情在于从照片到影像的跃升。
请连续保持耐心。

1. 空间定位

试想,当我们不雅观察现实天下上,我们会移动,转头,于是我们看到事物的不同角度和大小。
当我们靠近,声音变强,画面变大;当我们阔别,声音减弱,画面变小;当我们环绕物体,则看到它的侧面。
正是诗中所言:横算作岭侧成峰,远近高低各不同。

有一个专业术语,DOF(degrees of freedom),用于衡量人活动的尺度。
如果把空间分为 X,Y,Z 轴,则一共可以包括六种移动办法:沿 X、Y、Z 平移;沿 X、Y、Z 旋转。

所谓的 6DOF,实在便是指包含这六种情形的活动类型。

图十三,图片来自网络

VR 空间中,实质上所有的信息都只是投射在面前两块屏幕上的平面信息,远近、侧面并不存在。
以是它实在是仿照用户发生相应活动后的视觉呈现效果,直接投射如人眼。

比如当人靠近某个物体,屏幕画面会放大;转头就能不雅观察全体空间的全景,不是用户真的来到另一片空间,而是算法根据用户确当前活动判断,并进行实时渲染。

目前的算法,紧张因此头盔的活动情形为标准,通过 IMU 和追踪摄像头进行空间定位。
空间定位是 VR 的核心之一,因此有必要详细阐述。

1)IMU

IMU,全称为 Inertial Measurement Unit,翻译为惯性丈量单元,一样平常指丈量物体角速率和加速度的装置。
我们常常看到,一个名词 MEMS 与 IMU 伴随涌现。

MEMS 全称 Microelectromechanical Systems,翻译为微机电系统传感器,指内部构造在微米级别的传感器。

MEMS 有很多种,比如 MEMS 加速度计、MEMS 陀螺仪。

MEMS 和 IMU 是两个独立的观点,并不存在包含关系,不过两者存在交集。
比如上面提到的 MEMS 加速度计 和 MEMS 陀螺仪,既属于 MEMS ,也属于 IMU。

一样平常而言,IMU 又包含三种传感器:加速度计、陀螺仪和磁力计。

加速度计:一样平常为三轴加速度计,检测物体在 X、Y、Z 三轴上的加速度,经由积分换算,从而确定位移间隔(实际上这样确定位移不太准,加速度打算位移是靠积分换算,本身就有偏差,多次积分会导致偏差累计,终极的位移间隔会涌现漂移)。
陀螺仪:一样平常为三轴陀螺仪,检测物体在 X、Y、Z 三轴上的角速率,根据角速率推算物体当前的角度。
磁力计:又称电子罗盘,一样平常为三轴磁力计,检测物体在 X、Y、Z 上的磁分量,打算得到终极的磁向量,经由算法纠偏,终极得到地磁北的方向,从而确定物体的所在方向。

市情上的一些叫法,如六轴陀螺仪,实在是三轴加速度计+三轴陀螺仪;九轴陀螺仪,则是三轴加速度+三轴陀螺仪+三轴磁力计;十轴陀螺仪,是在九轴陀螺仪的根本上再加一个气压传感器,得到海拔高度,从而得到物体的高度。

在 VR 的运用处景中,一样平常采取九轴陀螺仪,实现 3DOF 的检测(Roll 、Picth、Yaw 三种动作,见图十二)。

但光靠 IMU 无法检测到平移的动作(沿三轴平移),一样平常还须要赞助摄像头等其他设备。

2)追踪摄像头

这里要谈到技能路径的演化,最早的平移定位,采取的是外部定位办法,直到一体机的风潮愈烈和 SLAM(空间定位算法)的发展,才逐渐转为内部定位。
不过在一些哀求超高精度的环境下(比如虚拟场馆或动捕),都还是采取外部定位的方法。

技能路径的演化,从 Outside-in 到 Inside-out。

实质的差异,Outside-in 是在外界空间中有一套锚定的装置,构建一个相对坐标系。
通过装置与 VR 设备的互动,检测头盔和手柄确当前位置。
在由外而内的系统中,多个固定的外部摄像头用于跟踪头戴显示设备的姿势(3D位置和3D方向)。
外部摄像头跟踪位于头戴显示设备和掌握器(如果有)上的一组参考点。

Inside-out,是依赖光学追踪,在 VR 头盔上安置摄像头,让设备自己检测当前外部环境的变革,再经由 SLAM 算法(Simultaneous localization and mapping)打算出当前的空间位置。

Outside-in

Outside-in 路径中,最有名的有两种技能方向:- Cculus 的 Constellation 红外摄像头定位系统;- HTC 的 Lighthouse 定位;先说 Constellation,Oculus 的头盔和手柄上都布满了红外传感,以固定模式闪烁。

房间中支配了红外摄像机,摄像机以特定频率拍摄头盔和手柄,由此得到一组图片,并得到这些红外的点的特定坐标,由于头盔和手柄的三维模型是已知的,通过 Pnp 求解(可以理解为一种繁芜的数学打算)能够得到点的 6 DoF(加上 IMU 后)。

图十四,图片来自 GamesBeat

至于用红外,则因红外波可以规避大部分颜色的影响,不会涌现误判。
但红外随意马虎被遮挡,以是在空间中要支配多台红外摄像机,才能准确判断三维信息。
实际上,Optitrack 和 Zero Latency 用的都是同样的方案,只不过 Zero Latency 用的是可见光,更随意马虎受到颜色等噪声滋扰。

主动式红外光( Constellation)紧张受到摄像头精度(由于根据图像判断)和光学算法的影响,同时价格昂贵,支配也比较麻烦,在移动浪潮下不太适用了。

另一种则是 Lighthouse 定位,室内安置了两台激光发射器,安顿在房间对角,而在头显和手柄上有 70 多个光敏传感器。
激光发射器从水平和垂直方向扫射空间,发射器为 0 度时,开始计时,激光到光敏传感器时,光敏传感器记录到达韶光。
由于发射器的旋转速率是已知的,以是根据韶光和转速能够打算光敏传感器相对发射器的角度,一次扫描完成后,就可以进行空间定位。

图十五,图片来自 HTC VIVE LIGHTHOUSE CHAPERONE TRACKING SYSTEM EXPLAINED 视频截图

比较红外,Lighthouse 的方法方便很多,没有那么多光学打算,偏差和延时都有所担保,可以达到 20ms 以内。
但激光扫描区域一样平常在 5 5 2 m 范围内,如果要扩大,须要多个灯塔,这时候多空间的领悟又会涌现算法问题。
为了实现定位,光敏传感器须要区分不同来源的激光,而光塔过多也会相互滋扰。

其余,Lighthouse 在安装和本钱上仍旧要比 inside-out 高,但延时性低,精度高,在须要特殊拟真的环境仍旧须要这种技能。

Inside-out

Inside-out,紧张通过摄像头拍摄周围的画面,通过图像识别判断房间景物的一些特色点,通过与上一次拍摄时的特色点位置进行比拟,从而得到特色点的位移。
与此同时借助 IMU 得到赞助数据,通过算法得到头显的位移情形。
同样,在手柄上存在一些小白点,摄像头也通过捕捉小白点的位移判断手柄的变革情形。

由于是可见光识别,以是房间内得保持一定的亮度,不能关灯。

此外,由于依赖摄像头识别外部的标记点,如果角度识别精读差异 1 度,全体间隔可能偏移几厘米,Inside-out 对精度哀求十分之高。
又由于须要打算图像显示,以是它的延时没有办法像 Lighthouse 一样低。

Inside-out 紧张依赖 VGA 摄像头和深度识别摄像头进行 3D 空间定位。
VGA 摄像头,合营深度识别摄像头,紧张用来做头部空间定位和手势识别。
VGA 是指的 VGA 格式的分辨率,640X480 ,黑白。
深度识别摄像头,紧张用来识别物体的间隔(实际上也可以识别骨骼点,但不须要),紧张有三种技能:

TOF:事理是传感器发出经调制的近红外光,遇物体后反射,通过打算光芒发射和反射韶光差或相位差来换算被拍摄物体的间隔。
单目构造光:该技能将编码的光栅或线光源等投射到被测物上,根据它们产生的畸变来解调出被测物的三维信息。
双目构造光:和人眼一样用两个普通摄像头以视差的办法来打算被测物间隔。

2. 面部、眼动和手势追踪

有了空间定位,VR 可以实时渲染出对应的画面结果。
然而人不止和天下交互,也要和人交互。
试想,如果我们想要在虚拟空间中同家人,亲朋好友互换,那么我们势必需要看到他们的神色,这个中最主要的便是面部表情和眼神。

图十六,图片来自 MARK ZUCKERBERG: FIRST INTERVIEW IN THE METAVERSE | LEX FRIDMAN PODCAST 视频截图,图为 ZUCKERBERG 和 FRIDMAN 在 VR 天下中的面部重修

1)面部识别

面部识别紧张靠摄像头,放在头显内部,追踪如额头、下巴、脸颊的变革情形,追踪事理和空间定位差别不大。
一样平常可以用在如下的场景下:

面部识别存在的问题是,当戴上头显时,人脸 60% 的地方是被遮住的。
Magic Leap 的想法是,虽然有的地方被遮住,但可以根据周围未被遮住的肌肉变革来推测。
当然,越多的摄像头还是更有助于捕捉真实表情。

Oculus 在演习面部识别时,用了 9 颗摄像头,只是到了消费级,才用 3 颗摄像头并合营 9 颗摄像头演习出来的算法进行面部追踪。

2)眼动追踪

眼部追踪紧张靠眼动追踪摄像头。
眼动追踪的事理是利用光摄入瞳孔反射到角膜的事理,测算角膜和瞳孔的间隔来判断眼动的情形。
VR 的眼部周围有一圈红外光 LED 灯,向眼睛发射红外光,光从瞳孔反射到角膜上,摄像头拍摄图像,判断瞳孔和角膜的位置,从而判断眼动的情形。

眼动追踪带来的益处很多,除了眼神与渲染的人物同步,最熟知的是眼动交互,和手势交互一起可以带来自然的交互体验。
另一个主要的好处在于,人类的视力在全体视野中并不屈均。
中心凹是视网膜的中央区域,视力最好。

在中心凹区域外,视力逐渐低落到视网膜边缘。
这样,实际上画面的渲染只须要关注到视线聚焦处,这样可以降落打算渲染本钱。
此外,有了眼动追踪后,VR 的瞳距可以根据佩戴者的身份自动调节;在运营层面,可以根据眼睛聚焦情形进行数据剖析。

还有一个隐蔽的好处,紧张是体验层面。
VR 中的 3D 成像效果,是通过向每只眼睛显示一个独特的 2D 图像来创造 3D 觉得,个中每个图像的渲染略有不同,以产生双眼视差,从而带来 3D 效果。

但是,用户眼睛和图像之间的间隔(也即显示屏与人眼的间隔)是固定的,以是实际上会导致眩晕问题,也便是所谓的视觉汇聚调节冲突(VAC)。
通过眼动追踪 + 变焦显示器,VAC 可以得到缓解。

变焦显示器利用眼动追踪来主动跟踪眼睛的会聚,并利用具有可变焦距的聚焦元件来匹配眼睛的会聚。
至于变焦技能,紧张是机器式变焦(电动齿轮,改变镜头和物体、视线焦点的间隔)。

3)手势识别

有了面部表情和眼动追踪外,我们还须要手势识别,以进一步与虚拟天下交互,比如拾取、点击,或只是大略的 say hello。
手势识别所用的摄像头和空间定义同等,都是 VGA 摄像头,识别事理类似。

手势识别紧张的难点在于:一样平常摄像头的视场角都讲究水平,垂直视场角的高度不足,以是手跑到摄像头的视线范围之外就很难办。
而在人类大部分的自然任务中,手都是处于下视野的范围,手势追踪的实际难度会很大。

其余,根据对照实验,采取手势追踪的任务效率,会低于直接用手部掌握器的办法,一是由于延时,二是由于纯手势交互缺少触觉提示和反馈,而人须要后两者以定位操为难刁难象。
Apple vision Pro 通过手眼领悟的办法,供应了一种视觉反馈,变相填补了下纯手势交互的问题。

此外,它还配了六颗摄像头(一样平常是 4 颗),个中两颗专门垂直向下以捕捉下视野的手。

4)全彩透视

如果说空间定位和面部、眼动追踪是与虚拟天下交互。
那么 VR 很快有了一个更大的野心:升级成 XR,捕捉现实天下的动态。
全彩透视,利用 VST RGB 摄像头,用于捕捉带着 VR 头盔的用户所看到的真实景象。
VST 指 vedio see through,RGB 是图片颜色格式。

VST 原来都是黑白的,用来看周围空间,现在成了 MR 的入门券。
无心插柳柳成荫,原来是为了让用户能够看到周围的真实空间,以确定活动范围的透视,却悄然一变,变成了与 AR 类似的功能。

不过囿于本钱,VST 也没有全部采取全彩。
如 Quest pro 用 VST,两颗黑白镜头建场景,一颗 RGB 摄像头用来补色,不过现在也涌现了双目的 RGB,体验越来越好。

VST 要把稳三点:

清晰度:简言之便是看到的画面要和现实中千篇一律。
延时性:要低,不然画面和动作不一致,用户会晕。
视角偏差:摄像头的位置和人眼的位置不一致,以是画脸庞易产生视角偏差,永劫光利用可能涌现视觉伪影,有点像水里折射的情形;以是要提前设置算法纠正。

实在,虽然 VR 推出了全彩透视的功能,但并不虞味着 VST 一定要放在一体机上,那样比较于 AR 并没有太大的上风。
如果拿 PC 和手机类比 VR 和 AR,VR 是 PC 的延伸,承载的是重活,而 AR 更善于可移动的小场景。
VR 在肉眼可见的未来,很难达到出街的可能,VST 的浸染仅仅是家庭活动,例如游戏、音乐、绘画。

图十七,Hauntify Mixed Reality 让鬼涌如今家中真实房间

VR 的 VST 中,真实天下的元素更多成为一种背景,增加活动本身的乐趣,但却不是主体。
试想,如果 VST 和 VR 主机分离,VST 作为 VR 的配件,可以配置到工厂、医院,通过无线传输实时渲染,那是否能够真正实现数字孪生?而 VR 也将真正闯入工业级的运用。

四、把大象塞进冰箱的末了一步

旅程到这里,实在已经结束了。
VR 的核心便是光学方案和空间定位,以及基于此的渲染和定位算法。
不过,为了方便读者后续阅读某些拆解报告时,对上述内容外的一些观点不太理解,特在末了一章附上干系的名词阐明。

1. 头盔、手柄靠近传感器: VR 头盔的靠近传感器一样平常用红外,由一个红外发射管和一个红外吸收管组成。
红外发射管会发射一调制红外光旗子暗记,该旗子暗记在碰着障碍物后被反射回来,吸收管通过吸收该反射旗子暗记并根据反射旗子暗记的强度来判断障碍物的远近。
玻纤: 头盔所用材料,耐热、绝缘、超轻。
霍尔芯片: 霍尔IC是将霍尔元件与运算放大器组为一体的产品。
霍尔元件一样平常用在手柄上,用于检测扳机、侧键是否按下;霍尔元件从元件本身得到的电压非常小,因此一样平常情形下须要配置运算放大器等的放大电路。
马达驱动芯片: 马达即电机,掌握马达的正转、反转、刹车等,用于掌握震撼马达。
线性马达: 通电的线圈在磁场中受到洛伦兹力浸染,带着动子沿固定方向往来来往运动产生振感,是一种能将电能直接转换成直线运动机器能; 线性马达的振动频率和波形均可编程,能根据利用场景,让马达做出不同方向、韶光和强度的振动反馈。
X 轴线性马达: 动子沿 X 轴方向移动的马达,可以带来前、后、左、右四个方向的震撼觉得(X、Y 轴)。
Z 轴线性马达: 动子沿 Z 轴方向移动(x,y,z 轴),带来上、下的震感。

手机上一样平常配 X 轴,由于手机薄,Z 轴行程短,效果不好;手柄上就不是了,双关齐下;早期还有一种转子马达,利用电磁感应,用电流导致的磁场驱动转子旋转而产生振动。
这种方法的问题是延时,缺少方向性,震撼的手感不好。

2. 打算、通信、存储IC: Integrated Circuit 集成电路芯片的简称。
集成电路芯片是一种电子元件,是将多个电子元件(如晶体管、电容、电阻等)集成在一起,通过半导系统编制造工艺制成的电路。
集成电路芯片有很多类型,比如存储器芯片、处理器芯片等。
CPU: Central Processing Unit ,中心处理单元,紧张用于打算机指令的逻辑打算和输入、输出掌握。
DRAM: Dynamic Random Access Memory,动态随机存取存储器,RAM 的一种,用于数据的临时存储,紧张用于存储运行中的程序和数据。
LPDDR5: DRAM 的一种,全称Low Power Double Data Rate SDRAM,个中 SDRAM 是 Synchronous Dynamic Random Access Memory 的缩写,表示同步动态随机存取存储器。
LPDDR5 的读取速率可以达到 6400MHz,表示内存每秒钟可以进行6400万次数据读写。
ROM: Read Only Memory,只读存储器,用于永久保存数据,也即我们一样平常意义上的内存。
闪存 UFS 3.1: Universal Flash Storage, 读写速率可以达到几百MB/s或乃至上千MB/s,一样平常插 U 盘在电脑上,数据从 U 盘上的读取、写入就看闪存的能力。
MCU: Microcontroller Unit, 微掌握器单元,集成了处理器核心(CPU)、存储器(RAM)和输入/输出接口等功能。
SoC: System on Chip, 系统级芯片,将系统的大部分或全部组件集成在一块芯片上,常日包括处理器、内存、输入/输出接口、仿照电路、数字电路和其他外围设备等。
SoC 可以大略理解为 MCU + 特定功能的外设集成。
FEM: Front-end Modules,前端模块,紧张用于射频旗子暗记的发送放大、吸收放大、滤波等,用在手柄、头盔(2.4 G、5G 射频)的通信。
FPGA: Field Programmable Gate Array,可编程的集成电路,上风是高速、实时处理大量数据,用于对视觉画面、传感器数据等的并行处理。

3. 电源管理钽电容: 电容器,紧张用来存储电荷。
电压电平芯片: 办理不同电压电平之间兼容性问题的集成电路芯片,电压电平芯片可以将输入旗子暗记的电压范围转换为输出旗子暗记的电压范围。
电平电压芯片将VR头显与打算机或游戏主机之间的旗子暗记进行转换,以确保它们能够正常地进行数据传输和通信。
稳压芯片: 将输入电压转换为稳定输出电压的集成电路芯片。
升压芯片: 将输入电压升高到更高电压的集成电路芯片,升压芯片也有利用运放的方案。
运算放大器: Operational Amplifier,简称Op-Amp,可以将微弱的仿照旗子暗记放大到适宜后续处理的范围,也放大输入之间的电压差;VR 中作为 LED 驱动或者其他驱动的放大器;运放也有用在升压芯片的方案。
OTG 扩展供: On-The-Go,USB 2.0 规范的补充,供电是指在利用OTG 功能时,主机设备(比如电脑)为连接的外设(比如 VR 头显)供应电源供应。
电源管理芯片: 顾名思义,对电源起到管理浸染,详细包括。
电源变换:将输入电源的电压和电流转换为适宜系统需求的电压和电流。
电源分配:将电能分配给不同的系统组件,以知足其功耗需求。
电源检测:监测电池电量、充电状态和系统负载等信息,以供应电源管理的智能化掌握。
其他电能管理功能:如电池保护、温度监测和功率管理等。

五、后记

这该当是我自《张小龙 22 年》后写的最长的文章了,无论是字数还是韶光。
写长文不随意马虎,记得当时写张小龙的时候,大概花了一个星期,虽然在微信上没发出多久就被腾讯封了,但在 pmcaff 上还有留存(链接放在了参考中),并得到了池建强老师的推举,也算满意了。

写这篇文章,比写人物要困难多了,太多的专业术语,以及技能理解。
原来我以为自己懂了的观点,实在真正串起来,又延伸出许多枝蔓,又一点点去查。

好在有 perplexity 的帮助,简化了我的一些事情量。
不过写作的乐趣正在于此,它是一座迷宫,有时只想理解一个观点,又牵扯到另一个观点,观点与观点之间的关系又引发了新的着迷。

有一些很不错的信息源在此过程中也被创造,例如雷锋网的 VR 专题、知乎上胡痴儿的从前回答,以及 B 站 Up 主消逝的模因的精彩视频。
可惜,前两者已经不再更新了。

当然,最惊喜的是终于创造了一本先容 VR 全貌的书本,《The VR Book》,虽然成书于 2016 年,但作者功力深厚,仍旧不失落为理解 VR 的最佳材料之一。

这篇文章,大概可以 2 个月以来,对 VR 的研究结果,是给自己一个交代。
里面一定有诸多问题,受限于自己当前的见识,有所偏颇,但第一步既已踏出,便可以在后续的学习道路上增编削查,可谓是写完后最大的收成了。
我想,在消费电子业无聊的状态下,有一件故意思的事物可以研究,便很宽慰了。

参考:

人类的视觉增强探索史:https://www.uisdc.com/evolution-of-ar-and-vXR 设备发展史:https://www.scaruffi.com/memejam/vr.htmlPhilco HeadSight 先容:https://www.virtual-reality-shop.co.uk/philco-headsight-1961/凸透镜成像事理:https://www.junyiacademy.org/junyi-science/science-high/science-high-history/s5p-99/junyi-geometric-optics/v/F-qVxGLJT1Y理解 AR/VR 的光学事理:https://imgtec.eetrend.com/blog/2022/100557077.htmlVR视场角真的是越大越好吗?- 大朋工程师的文章 – 知乎 https://zhuanlan.zhihu.com/p/22252592重新认识鱼眼镜头:https://www.bilibili.com/video/BV1TL41117ti/?spm_id_from=333.1007.top_right_bar_window_history.content.click;vd_source=7cf1f568229c6f5b4a7c23f5a2e85cbcVR沉浸感的奥秘,人眼如何通过双目视差硬解深度信:https://www.bilibili.com/video/BV11A411m7Sw/?share_source=copy_web;vd_source=c7e29439c97151c3755a46ccd4c8160a如何充分利用视觉系统对深度的感知从而营造更强的立体感与深度感?:https://www.zhihu.com/question/46552885光场与人眼立体成像机理:http://vr.sina.cn/news/2018-10-24/detail-ifxeuwws7707633.d.html维基百科 – Vergence-accommodation conflict:https://en.wikipedia.org/wiki/Vergence-accommodation_conflictMEMS传感器1:3轴加速度计事情事理揭秘,与这些有关:https://www.bilibili.com/video/BV1NJ41117B8/?share_source=copy_web;vd_source=c7e29439c97151c3755a46ccd4c8160a深度解析 HTC Vive 的 Lighthouse 室内定位技能 – 虎嗅网:https://www.huxiu.com/article/142795.htmlLighthouse 激光定位技能开源了,但不是 Valve 做的 | 雷峰网:https://www.leiphone.com/category/arvr/nu6Zln6hQTdMqSsy.htmlHTC Vive Lighthouse Chaperone tracking system Explained – YouTube:https://www.youtube.com/watch?v=J54dotTt7k0How the Vive Lighthouse Works – YouTube:https://www.youtube.com/watch?v=oqPaaMR4kY4Hypereal 溘然开源?背后所涉的重磅信息都在这里了 | 爱范儿:https://www.ifanr.com/786928目前最强的 VR 定位技能,HTC 和 OptiTrack 是如何做到的?:https://wapbaike.baidu.com/tashuo/browse/content?id=2e7f4fcdd19a68101416efc6深度干货:详解基于视觉+惯性传感器的空间定位方法:https://www.leiphone.com/category/arvr/taExbGMOaYfbnnMw.htmlVR的空间定位技能是如何实现的?- 知乎:https://www.zhihu.com/question/46422259VR空间定位全解:如何在虚拟天下中行走?:https://www.leiphone.com/special/216/201607/577cd787225d6.html「面部动作捕捉」是一项什么技能?紧张运用于哪些场景?- 渲云渲染的回答 – 知乎:https://www.zhihu.com/question/321811525/answer/675319985【VR速递】OculusQuest面部识别;眼球追踪的研发之路 – 载入圈VR的文章 – 知乎:https://zhuanlan.zhihu.com/p/410829378面部表情追踪技能在 VR 设备中的发展研究:https://m.fx361.com/news/2019/0106/6266425.htmlEye Tracking in Virtual Reality: a Broad Review of Applications and Challenges:https://link.springer.com/article/10.1007/s10055-022-00738-zWhat is VR Eye Tracking? [And How Does it Work?]:https://imotions.com/blog/learning/best-practice/vr-eye-tracking/Hand Tracking for Immersive Virtual Reality: Opportunities and Challenges:https://www.frontiersin.org/articles/10.3389/frvir.2021.728461/fullQuest手势识别功能评测:https://mp.ofweek.com/vr/a645693029046Meta RGB透视VR研究:摄像头间隔可调、分辨率720p:https://zhuanlan.zhihu.com/p/569886369从范例案例看VST MR游戏的设计技巧:https://www.vrtuoluo.cn/536138.html红外 ToF 技能将大幅提升靠近感应传感器的性能及可靠性:https://mouser.eetrend.com/content/2020/100048606.html何谓霍尔IC?:https://www.ablic.com/cn/semicon/products/sensor/magnetism-sensor-ic/intro/转子马达、X轴和Z轴线性马达有啥差别?这篇文章总算解释白了!
:https://www.cfan.com.cn/2020/0729/134125.shtmlMEMS mic之Amic(一)_麦克风thdpn是什么不良代码?:https://blog.csdn.net/weixin_44316365/article/details/124838502EPOS 波束成形麦克风阵列技能优化您的会议体验.pdf常用的音频功放芯片-电子工程天下:http://news.eeworld.com.cn/qrs/ic628769.html瑞苏盈科为VR行业供应FPGA核心板办理方案:https://xilinx.eetrend.com/content/2023/100572176.html同创国芯窦祥峰演讲实录:VR的FPGA运用剖析:https://cloud.tencent.com/developer/article/1137422Perplexity:https://www.perplexity.ai/张小龙的 22 年和微信的 8 年:https://xie.infoq.cn/article/a70d189eaa18334868f8b2a45

专栏作家

善宝橘,微信"大众号:善宝橘,大家都是产品经理专栏作家,2019年年度作者。
南大传播学硕士,崇尚终生学习的互联网斜杠青年,专注新媒体、游戏领域的运营策划。

本文原创发布于大家都是产品经理。
未经容许,禁止转载

题图来自 Unsplash,基于CC0协议

该文不雅观点仅代表作者本人,大家都是产品经理平台仅供应信息存储空间做事。

标签:

相关文章

AI技术的突破与创新_以Aittit为例

随着科技的飞速发展,人工智能(AI)已经成为当今世界最为热门的领域之一。在众多AI技术中,Aittit凭借其独特的创新与突破,成为...

智能 2024-12-31 阅读0 评论0