instantnerf的技术原理是什么?

75年前 , 宝丽来相机拍摄出第一张即时照片 , 是人类第一次以逼真的二维图像快速捕捉三维世界 , 具有划时代的意义 。今天 , 人工智能的研究人员正在进行相反的工作 , 力求在几秒钟的时间内将静止图像的集合变成数字3D场景 。
在本周的春季图形技术大会(GTC)上 , Nvidia展示了一种新的逆渲染方法(InstantNeRF)——从少量2D图像中重建3D场景 。逆向渲染使用AI来模拟现实世界里的光线 , 基于NvidiaResearch团队开发的技术 , 让渲染过程极大地缩短 , 几乎可以说是立即发生 。
instantnerf的技术原理是什么?
文章图片

文章图片

事实上 , 在2D转3D的相关领域 , Nvidia一直在尝试技术突破 , 致力于推出更强大的工具来完成这一过程 。但即使是Nvidia这样的行业领先公司 , 即时渲染3D也是一项极为艰难的技术挑战 。
这更凸显出InstantNeRF的来之不易 。关于这一成就 , 谷歌科学家JonBarron在推特上表示:18个月前 , 训练NeRF还需要5小时;2个月前 , 训练NeRF最快也需要5分钟;就在近日 , 基于英伟达的最新技术 , 训练NeRF最快也需要5秒!
01InstantNeRF的技术原理
据了解 , Nvidia能够取得这一成绩的主要原因是采用了一种被称作多分辨率哈希编码(MultiresolutionHashEncoding)的技术 。在一篇论文《基于多分辨率哈希编码的即时神经图形基元》中 , Nvidia对这一新技术做了详细说明 。
Nvidia表示:“计算机图形基元基本上由有关外观的各项参数的数学函数表示 。参数的数学计算结果对于视觉保真度至关重要 。”言下之意是 , Nvidia希望在保持速度和数学函数紧凑度的同时 , 还能捕获高频、局部的图形细节 。
为了达到上述要求 , Nvidia采用了多分辨率哈希编码技术 。据Nvidia称 , 该技术有着自适应性和高效性两大特性 。函数内部只有两个值需要进行配置 , 分别为参数的数量T和所需的最佳分辨率Nmax 。
该方法映射了来自各个角度的2D镜头的颜色和光线强度 , 然后生成数据 , 再结合摄像机位置的相关数据 , 将这些来自不同位置的图像连接起来 , 从而渲染出3D场景 。
利用该技术 , 只需经过几秒钟的训练 , 便能在各种任务中达到较高的质量 。
在GTC会议上 , Nvidia展示了一张图片 , 图片上是一个穿着像安迪·沃霍尔(AndyWarhol)的模特拿着一个老式的宝丽来相机 。在参与者还没有反应过来的时候 , Nvidia迅速把这张图片转换为了3D效果 , 引起了现场的阵阵惊叹 。
展示之后 , Nvidia的IshaSalian在现场表示:InstantNeRF(中文叫神经辐射场)是由加州大学伯克利分校、Google研究院和加州大学圣地亚哥分校的研究人员在2020年开始研发的一项技术 。
该模型是使用NvidiaCUDA工具包库开发的 。由于它是一个轻量级的神经网络 , 它可以在单个NvidiaGPU上进行训练和运行 , 在核心卡上运行最快 。
几年来 , 研究人员一直在改进这种从2D到3D的技术 , 旨在为渲染出的成品增加更多画面细节 , 并提高渲染速度 。Nvidia表示 , 新一代InstantNeRF模型是迄今为止最快的技术之一 , 将渲染时间从几分钟缩短到“几乎瞬间”就能完成 。
02NeRF的应用范围
IshaSalian进一步阐释说 , 这种方法可以应用于广泛的领域 。它可用于为虚拟世界创建头像或场景 , 以3D形式捕获视频会议参与者及其环境 , 甚至重建3D数字地图的场景 。
在上述领域 , 使用传统方法创建3D场景可能需要数小时或更长时间 , 具体取决于可视化的复杂性和分辨率 。而NeRF使用神经网络系统 , 效率和准确度大幅度提升 。