《跟着德爷闯东非》是Pico一款全新的6DoF互动纪录片。主角由在全球拥有530万粉丝的明星探险家德爷(Edward James Stafford)担任。观众以第一视角摄影师的身份陪伴德爷一起冒险,近距离观察野生动物,体验非洲大草原的野外生存之旅。
与行业内常见的不具备互动性的3DoF实拍纪录片以及不具备写实性的游戏引擎制作的6DoF纪录片不同,《跟着德爷闯东非》纪录片的拍摄采用空间重建技术及虚实融合技术,兼顾实拍和虚拟互动,以全新的6DoF互动体验,增强了VR内容的沉浸性和交互性,让用户跟随德爷的脚步沉浸式体验从城市“跃入”荒野的快感。
传统VR实拍视频的交互通常采用不同选项触发不同结局的AB型互动方式,而《跟着德爷闯东非》想要实现的是全新的VR空间互动性,用户可以抓起虚拟世界中的物体完成任务,比如和德爷一起钻木取火,也可以在场景中自由走动,在非洲草原和德爷一起追捕猎杀珍珠鸡,实现全新的交互性和达到高沉浸感,突破传统视频的界限。
而想要实现全新的交互性和体验高沉浸感,需要做到:
空间重建技术能够复原现实世界的场景和物品并转化为数字资产,是计算机视觉和摄影测量中的重要研究课题,也在智慧城市、虚拟现实、数字导航与数字遗产保护等方面有着重要的应用。
针对特征点提取、匹配算法,通过结合传统特征与深度学习方法,算法在大视角/尺度变化、暗光、弱纹理、运动模糊等多种挑战场景下仍能有效提取足量稳定的特征;通过将特征点纳入自注意力和交叉注意力网络,结合多源传感器输入检索全局最优图像特征匹配,使得算法即使在空地跨视角、鱼眼/针孔/全景跨相机等复杂数据输入的情况下,实现建图完整度、成功率均达到100%。同时,开发支持多相机系统、多相机模型光束法平差优化算法,同时也兼容其他不同传感器的联合重建,实现高精度、多模态的位姿估计。
火山引擎多媒体实验室通过立体视觉 (Multiple View Stereo,简称MVS)技术将二维图像信息转化为三维点云信息。团队自研基于多目立体视觉及全景图的深度估计算法,通过神经网络进行稠密深度估计,在野外大场景环境获得高精度的场景稠密几何测量。获得点云信息后,进行点云去噪和补全,并通过点云配准实现场景几何一致性。最后,通过基于TSDF和图像语义信息的点云融合策略,进一步滤除噪声,生成更加平滑一致的完整场景点云。
火山引擎多媒体实验室自研多种网格优化算法,实现网格平滑、去噪、简化和补洞,获得更加精细、完整的高质量网格模型。得益于图像处理期间高精度的相机位姿估计以及图像超分等画质优化,结合自研贴图算法,获得更高清、拼缝更少的高质量纹理贴图。同时通过纹理重打包算法优化,实现更高的纹理利用率,降低存储资源浪费,提升纹理有效分辨率。
目前,火山引擎视频云平台具备自动化空间建模链路,助力大场景重建,可支持采集RGBD/RGB数据(无人机、手持采集等)自动化上传云平台,2-4小时后自动产出建模结果,建模精度可达1cm~2cm。同时,火山引擎视频云的云渲染可视化系统,联合自研动态传输算法,可实现高度真实感的模型渲染。
火山引擎视频云三维重建平台
火山引擎多媒体实验室将神经辐射场技术(NeRF)与自研大场景建模技术相结合,研发行业领先的大场景光场重建方案,实现高度真实感(psnr>30)的场景重建、复现及后编辑。
在具体实践的场景中,动态物体会使NeRF重建出现伪影,借助自研动静态分割、影子检测、inpainting等算法,对场景中和几何不一致的区域进行提取、修复。同时借助自研高精度SFM算法框架,对场景进行高精度的几何重建,包括相机参数估计以及稀疏、稠密点云生成。另外,对场景进行拆分以减小单次训练资源消耗,并可做分布式训练、维护。在神经辐射场训练过程中,针对室外无边界大场景,团队通过优化策略以提升该场景下的新视角生成效果,比如,通过在训练中同时优化位姿提高重建精度、基于哈希编码的层次化表达提升模型训练速度、借助外观编码提升不同时间采集场景的外观一致性、借助mvs稠密深度信息提升几何精度等。
以团队同毫末智行合作为例,完成单路采集以及多路合并的NeRF重建,相关成果已在毫末AI Day发布。
单趟视觉NeRF重建
为提升用户沉浸式体验,火山引擎多媒体实验室自研虚实融合技术,将环境实拍全景图与场景模型进行对齐、融合。 团队利用先进的人工智能技术,建立全景图图像特征与模型关键点的匹配关系,通过PnP算法以及光束法平差算法将全景图注册至场景模型坐标系,实现尺度、位置的统一,从而实现模型渲染与实拍全景视频渲染的统一,达到虚实融合的效果。
同时,为扩大用户体验的自由度,团队针对该场景自研非球面天空盒渲染,克服传统的球面全景图渲染仅在图像采集中心视觉一致的缺陷,进一步提升实拍全景图渲染模型与地形模型的匹配程度,以实现更大运动范围的视觉一致性,进一步提升沉浸式体验。
在《跟着德爷闯东非》互动纪录片中,会有用户虚拟体验探险剧情的桥段,例如钻木取火,木棍训蛇等。为了带来真实的体验,道具往往是在实际拍摄过程中就地取材,有细长的树枝,薄薄的小刀,还有形态复杂的篝火堆。这些道具的重建本身是比较有挑战的,再加上整个拍摄过程比较紧张,留给扫描的时间并不充裕。为此,火山引擎视频云团队沉淀出一套采集方便,操作简单,能还原各类复杂物品的重建系统。
为了重建形状比较复杂的道具(例如狭长的木棍、锋利的小刀)。火山引擎视频云采用符号距离场(Signed Distance Fields,简称SDF)的技术方案来表示三维物体,结合深度学习的方法克服了以上重建难点。对于如何监督神经网络使其准确地拟合该SDF,火山引擎视频云先用运动恢复结构(Structure from Motion,简称SfM)算法,精确计算拍摄图像的相机姿态,再利用可微渲染的方法将SDF所表示的空间信息渲染到图像上,把渲染得到的图像和该视角下采集的图像做比较,不断优化神经网络,使SDF在各个采集视角下的渲染结果尽可能与实际采集的图像一致。为了进一步提高重建精细度,在优化SDF的时候加入稀疏重建得到的三维点做约束,能更好的还原物体的细节特征。
采用虚实融合技术可以构造由空间重建模型和实拍 360°VR视频两部分构成的6DoF互动场景,同时在《跟着德爷闯东非》项目中,多媒体实验室也实现了终端上的交互技术,同内容团队一起创造出了很多有创意性的虚实结合的玩法。
使用离屏相机管道,把从全景视频球上投影出的针孔2D图像重新贴在玩家手持的相机模型上,以实现出玩家可以对环境中任意角度拍照的玩法。
拍照功能示例
火山引擎多媒体实验室可以估计VR视频中的深度信息,结合3D虚拟空间中的虚拟物体的位置信息,计算出全景视频球上指定视频元素,对应于玩家在真实的3D空间下的位置。从而,实现视频画面上真实物品转换到玩家可交互虚拟物品模型的无缝转换的玩法。
虚实融合技术目前正处于快速发展的阶段,在众多领域中展现出广阔的应用前景。如游戏、教育和医疗等领域,已开始积极探索虚实融合技术的应用,并取得了不错的成绩:
在游戏领域,虚实融合技术赋予了游戏开发者更多创造力和想象力的空间。通过将虚拟元素与真实世界相结合,游戏能够提供更加沉浸式和交互式的体验。玩家可以与虚拟角色和游戏环境进行实时互动,增强了游戏的娱乐性和参与感。 教育领域也看到了虚实融合技术的巨大潜力。通过将虚拟内容融入到教学场景中,学生可以以更加生动和直观的方式进行学习,提高学习效果和兴趣。虚实融合技术可以为学生提供与实物互动的机会,使他们能够亲身体验和理解抽象概念,促进知识的深入理解和记忆。 在医疗领域,虚实融合技术也显示出巨大的潜力。医疗实践中,虚实融合可以用于模拟手术训练、辅助手术导航和可视化诊断等方面。通过结合虚拟现实和真实世界数据,医生可以更准确地进行手术规划和操作,提高手术的安全性和成功率。此外,虚实融合还可以用于康复训练和疼痛管理等方面,为患者提供更加个性化和有效的治疗手段。