在以三维感知/三维生成与重建为主题的第 246 期GAMES Webinar中,Lingjie Liu老师做了名为 真实感的有三维感知的场景生成(Photo-realistic 3D-aware Scene Generation) 的讲座,Zhiqin Chen老师做了名为 神经网格重建(Neural Mesh Reconstruction) 的讲座。
题目中的关键词是“三维感知”。
首先因为我们人类生活在一个三维的世界。所以在数字化现实世界将其变成虚拟世界的时候,我们希望它是一个三维的表示。这样子很自然地,我可以从不同角度,对物体进行观察。
并且这样一种三维重建和渲染的技术,能够帮助我像医生去做一些诊断和处理。

同时,在最近非常火的元宇宙中,我们希望给用户提供一种沉浸式、真实感的一种享受。使得真实世界与虚拟世界能进行无缝的交互。

同时,对于下一代的人工智能,我们希望它有三维感知的能力,使得人工智能能够跟人类进行协作去完成一些任务。

所以我的一个长期的愿景是人工智能和三维感知能进行一个融合。
可以用人工智能的技术去帮助我们解决三维学习,包括三维重建、渲染里面的一些难题。
同时我们也希望赋予人工智能三维感知的能力。

在这里提出一个方案,比如说,对于一个人来说,用眼睛看这个世界是二维感知的能力,因为看到的都是二维图像。
我们希望从图像中重建出一个三维的表达,重建完三维的表达也希望它有一个高质量的图像的渲染过程。

最近几年,见证了二维计算机视觉很大的发展。
其中一个重要的原因是有了 IMAGENET这个百万级的数据集的出现。(下图左侧)
现在对于三维的学习,最主要的一个瓶颈(bottleneck)是它缺少一些非常真实的三维数据。
下图中右侧是我们用的比较多的数据集,可以看到它们的数量级远没有达到IMAGENET百万级的数量级。


就比如说,在第一步中,对一个物体,拍摄了100张图片,用最先进的方法-COLMAP重建出这个三维体。如下图,可以看到重建的效果不太好,有很多噪声和缺失。


那么就可以看到两步之间的gap:第一步,image-based reconstruction 的输出,和得到一个真实感渲染图像的输入存在一个巨大的gap。

现在很多时候,还是雇佣一些artists帮我们设计一些三维场景。但是,这个过程是非常费时费力的。

刚刚所说的第一个问题,就是说从image里面得到很好的三维模型,然后把三维模型进行高质量的渲染。


现在的很多表达都是跟 neural network 结合的表达,所以把它们叫做 neural 3d scene 的representations。
这里列举了一些例子,现在常用的 3d neural scene representations,现在 隐式场(implicit field)受到大家很多的青睐,是因为它能够提供一个非常高质量的special resolution,能够得到一个非常高清的结果。

NeRF解决的问题,实际上就是传统的计算机图形学管线所解决的一些问题:我有一个3维物体的多个视角的图像,把它们作为输入,输入之后就可以去 optimize 它们三维的scene representations。之后就可以从任意的视角,对这个学到的scene做一个渲染。

比如对于中间的每一帧图片:2k*1k, NeRF渲染需要100s。


用一个改造的volume rendering,去学习最后的场景表达。
可以出非常高精度的几何,相比于传统的三维重建方法,比如 COLMAP,它们很难得到这么高精度的结果。

那么就需要对scene加一些constraint,比如一些物理模型。在生成结果的时候,不但符合图像的RGB,还符合物理的模型。

我们常用的是 SMPL model,是显式的模型,问题在于resolution不够,表达人身上的很多details,geometry deformation,就很难表达出来。
所以在这篇工作里面,把SMPL model和 neural scene static的 3d representations进行一个结合。
于是,就可以去做一个 animatable 的 human representations。
学完这个model之后,在测试的时候,就可以给他一个任意的驱动的动作序列,来驱动这个人让他运动,然后就可以从不同的视角去观察这个人。

神经隐氏场,输出的模型都很光滑,很多原因:


