NerfDiff 旨在解决现有单图像三维重建方法中存在的视图合成质量差和三维结构不一致的问题。它结合了神经辐射场 (NeRF) 和三维扩散模型 (3D-aware Diffusion Model, CDM) 的优势,采用了一个两阶段的流程:
初始 NeRF 生成: 首先,利用预训练的三维扩散模型 (CDM) 生成场景的初始 NeRF 表示。CDM 通过学习三维场景的先验知识,为 NeRF 提供一个良好的初始估计。
NeRF 引导的三维扩散细化: 然后,利用一个新颖的 NeRF 引导的三维扩散框架,对初始 NeRF 进行细化。这个框架通过将 CDM 的输出与 NeRF 的渲染结果进行比较,迭代地更新 NeRF 参数,从而生成更精确、更细节丰富的三维场景。 过程中引入了几何约束 NeRF (Geo-constrained NeRF),进一步提升了重建质量,特别是对几何结构的重建。