扩散模型还原被遮挡物体,几张稀疏照片也能"脑补"重建交互式场景

DP-Recon团队 投稿

你是否设想过,仅凭几张随手拍摄的照片,就能重建出一个完整、细节丰富且可自由交互的3D场景?

在传统方法中,这几乎是不可能完成的任务,稀少的拍摄视角往往导致模型无法还原被遮挡的区域,生成的场景要么残缺不全,要么细节模糊。更令人困扰的是,传统的重建算法无法解耦场景中的独立物体,重建结果无法交互,严重限制了在具身智能、元宇宙和影视游戏等领域的应用前景。

近期,北京通用人工智能研究院联合清华大学、北京大学的研究团队提出了名为DP-Recon的创新方法。该方法通过在组合式3D场景重建中,引入生成式扩散模型作为先验,即便只有寥寥数张图像输入,也能智能“脑补”出隐藏在视野之外的场景细节,分别重建出场景中的每个物体和背景。

值得一提的是,该方法还创新性地提出了一套可见性建模技术,通过动态调节扩散先验和输入图片约束的损失权重,巧妙地解决了生成内容与真实场景不一致的难题。在应用层面,DP-Recon不仅支持从稀疏图像中恢复场景,还能实现基于文本的场景编辑,并导出带纹理的高质量模型,为具身智能、影视游戏制作、AR/VR内容创作等领域,带来了全新的可能性。

扩散模型还原被遮挡物体,几张稀疏照片也能"脑补"重建交互式场景

研究概述

扩散模型还原被遮挡物体,几张稀疏照片也能"脑补"重建交互式场景

图1. 重建结果、基于文本编辑和影视特效展示

3D场景重建一直是计算机视觉和图形学领域的核心挑战,其目标是从多视角图像中恢复场景的完整几何和逼真纹理。近年来,NeRF和3DGS等神经隐式表示方法在多视角充足时表现出色,但在稀疏视角下却捉襟见肘。更重要的是,这些方法将整个场景作为一个整体重建,无法解耦独立物体,这严重制约了下游应用的发展。

现有的组合式场景重建方法同样面临稀疏视角带来的的严峻挑战。视角稀少会导致大面积区域缺乏观测数据,模型在这些区域容易崩塌;同时,物体间的相互遮挡使得某些部分在所有输入图像中都不可见,最终导致重建结果出现畸形或遗漏。

那么,如何为这些“看不见”的区域补充合理信息,让重建模型既忠实于输入图像,又能在空白处有所依据?DP-Recon给出了令人振奋的解决方案,该方法巧妙地将生成式扩散模型作为先验引入组合式场景重建,通过Score Distillation Sampling(SDS)技术,将扩散模型对物体概念的“理解”蒸馏到3D重建过程中。例如,当输入照片只拍到桌子的一面时,扩散模型可以基于对“桌子”这一概念的认知,智能推断出桌子背面的可能形状和纹理。这种方式为重建提供了宝贵的信息补充,极大提升了在稀疏视角和遮挡场景下的重建效果。

需要注意的是,直接将扩散先验硬套用到重建上并非易事。如果处理不当,生成模型可能会“过度想象”,产生与输入图像矛盾的内容,反而干扰基于真实照片的重建过程。为此,DP-Recon精心设计了一套基于可见性的平衡机制,巧妙协调重建信号(来自输入图像的监督)和生成引导(来自扩散模型的先验),通过动态调整扩散先验的作用范围,确保模型在已有照片信息处保持忠实,在空白区域合理发挥想象力。

下面将深入解析DP-Recon的核心技术细节。

关键技术

扩散模型还原被遮挡物体,几张稀疏照片也能"脑补"重建交互式场景

图2. DP-Recon的算法框架

DP-Recon的技术创新主要体现在以下三个关键方面:

1. 组合式场景重建:

与传统整体式重建不同,DP-Recon采用组合式重建策略。具体来说,模型会利用多种模态的重建损失(包括:RGB图像、深度图、法向量图和实例分割图),为每个对象分别建立隐式场(SDF),初步构建几何轮廓和外观表征,便于后续对每个物体加入基于文本的先验信息。

2. 几何和外观的分阶段优化:

DP-Recon将重建过程分为了几何和外观两个阶段,分别针对物体的形状和纹理进行优化。

在几何优化阶段,基于初步重建的基础,通过对法向量图引入Stable Diffusion的SDS损失,进一步优化物体在欠缺观察区域的细节,显着提升几何完整度。此阶段结束后,将输出每个物体和背景的Mesh结构。

在外观优化阶段,使用Nvdiffrast渲染生成的Mesh,巧妙融合输入图像的颜色信息和扩散先验,对物体表面纹理进行优化。为便于后续渲染和编辑,DP-Recon在此阶段还会为每个对象生成精细的UV贴图。

经过以上两个阶段的处理,最终,场景中每个对象的高质量网格模型及其纹理贴图,均具有精准几何和逼真外观。

3. 可见性引导的SDS权重机制:

针对扩散先验可能带来的不一致问题,DP-Recon提出了创新的可见性引导解决方案。该方法在计算SDS损失时引入可见性权重,根据每个像素在输入视角中的可见程度,动态调节扩散模型的引导强度。

具体而言,DP-Recon在重建过程中构建了一个可见性网格,通过输入视角体渲染过程中积累的透射率,来优化这个网格。当需要计算参与SDS视角的可见性图时,直接查询该网格即可。对于输入照片中高度可见的区域,系统会自动降低SDS损失权重,避免扩散模型“喧宾夺主”;而对于未被拍摄到或被遮挡的区域,则赋予更高的SDS权重,鼓励网络借助扩散先验补全细节。这种精细的可见性引导机制,完美平衡了重建的真实性与完整性。

实验结果

在Replica和ScanNet++等权威数据集上的系统性评估表明,DP-Recon在稀疏视角下的整体场景重建和分解式物体重建两方面都实现了显着突破。

扩散模型还原被遮挡物体,几张稀疏照片也能"脑补"重建交互式场景

表1. 整场景重建定量结果对比

1. 整体场景重建:

量化结果(见表1)清晰显示,DP-Recon方法在重建指标和渲染指标上与所有基线模型相比,均展现出明显优势。

扩散模型还原被遮挡物体,几张稀疏照片也能"脑补"重建交互式场景

△图3. 场景重建结果对比

如图3所示,通过将生成式先验融入重建流程,DP-Recon在拍摄不足的区域,实现了更精准的几何重建和颜色还原,以及更平滑的背景重建和更少的伪影漂浮物。如图4所示,在相同条件下,DP-Recon的渲染结果质量明显更高,而基线方法则出现明显伪影。

扩散模型还原被遮挡物体,几张稀疏照片也能"脑补"重建交互式场景

图4. 新视角合成结果对比

2. 分解式物体重建:

如表2和图3所示,生成式先验的引入极大改善了遮挡区域的重建效果,被遮挡物体的结构和背景都能更加精确地还原,DP-Recon显着减少遮挡区域的伪影漂浮物。在遮挡严重的复杂大场景测试中(见图1),DP-Recon仅用10个视角就超越了基线方法使用100个视角的重建效果,这一突破性成果充分证明了该方法在真实场景中的实用价值。

扩散模型还原被遮挡物体,几张稀疏照片也能"脑补"重建交互式场景

表2. 物体和背景重建结果对比

应用价值

1. 智能家居重建:

DP-Recon对室内场景展现出了卓越的鲁棒性。实验表明,仅需从YouTube看房视频中提取15张图像,配合Colmap标注相机位姿和SAM2物体分割,就能重建出高质量的带纹理场景模型,如图5所示。

扩散模型还原被遮挡物体,几张稀疏照片也能"脑补"重建交互式场景

△图5. YouTube看房视频重建结果

2. 赋能3D AIGC:

借助DP-Recon的生成式先验,用户可以轻松实现基于文本的场景编辑,如图6所示。就像为3D世界接入了AI想象力,用一句“将花瓶变成泰迪熊”或是“换成太空风格”,就能实现传统方法需要数日才能完成的修改。这种无缝融合重建与创作的能力,将大幅提升AIGC生产效率。

扩散模型还原被遮挡物体,几张稀疏照片也能"脑补"重建交互式场景

图6. 基于文本的场景几何和外观编辑

3. 影视游戏工业化:

DP-Recon输出的每个对象都是带有精细UV贴图的独立网格模型,如图7所示,这为影视特效(VFX)和游戏开发带来了极大便利。创作者可以轻松将模型导入Blender等3D软件,进行光照、动画和特效制作,或将场景直接接入游戏引擎开发交互内容。

扩散模型还原被遮挡物体,几张稀疏照片也能"脑补"重建交互式场景

图7. 影视特效展示

团队介绍

研究团队由来自北京通用人工智能研究院(BIGAI)、清华大学和北京大学的跨学科研究者组成,致力于通用人工智能领域的前沿研究。团队成员在三维场景理解、重建和生成等方面,拥有丰富的研究经验。一作为清华大学博士生倪俊锋,其它作者为清华大学博士生刘宇、北京大学博士生陆睿杰、清华大学本科生周子睿;通讯作者为北京通用人工智能研究院研究员陈以新、北京通用人工智能研究院研究员黄思远。

论文链接: https://arxiv.org/abs/2503.14830
项目主页: https://dp-recon.github.io/
代码仓库: https://github.com/DP-Recon/DP-Recon

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/7477.html

(0)
人脑网的头像人脑网
上一篇 2025年4月23日 下午3:28
下一篇 2025年4月23日 下午3:29

相关推荐

  • AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率仅55%

    当前顶尖AI模型是否真能“看懂”物理图像? 全谱系多模态物理推理新基准来了,结果SOTA级模型准确率都不足55% 新基准名为SeePhys,强调了图形感知对于模型认识和理解物理世界的重要性。 内容涵盖经典与现代物理的各个知识等级和领域,包括从初中到博士资格考试的全谱系多模态物理问题 它由中山大学、苏黎世联邦理工学院、华为诺亚方舟实验室和香港大学的研究团队联合…

    2025年5月29日
    1000
  • 23999元起,鸿蒙「折叠屏」电脑来了!展开比手机还薄

    华为鸿蒙电脑,正式发布! 并且,还有折叠屏新惊喜来袭: 展开18英寸,折叠13英寸,重量1.16kg,甚至比一些手机还薄。 余承东刚一官宣,现场立即爆发“遥遥领先”的欢呼声。 热搜也是火速跟上: 线上网友们纷纷表示: 关键是定价,也给了大家伙一点小小的震撼: 32GB + 1TB,售价元; 32GB + 2TB,售价元。 这个价格,你觉得香不香? 另外,此前…

    2025年5月20日
    800
  • 微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑

    微软以小搏大,发布首个开源2B参数规模“原生1bit”LLM—— BitNet b1.58 2B4T,单CPU就能跑,性能与同规模全精度开源模型相当。 它采用三进制{-1, 0, 1}存储权重,相较于传统的16位浮点数可大幅降低显存需求。 只需0.4GB内存即可运行。 基于4T token语料训练,BitNet b1.58 2B4T在保持性能的同时,计算效率…

    2025年4月21日
    2700
  • 全球首个Linux开发本:50TOPS算力,DeepSeek已配好,可随地开发

    不是你以为的AI PC,全球首个算力本——AIBOOK,它来了! 要说跟AI PC最大的区别,那就是AIBOOK它内嵌的系统,就是程序员们搞开发最爱的Linux。 而也因如此,它同时还解锁了“全球首个基于Linux的开发本”的头衔。 当然,若是想用Windows搞开发,也可以一键切换云桌面,甚至可以通过Android容器支持安卓开发哦~ 最重要的是,在它50…

    2025年4月12日
    5000
  • 开源AI开发生态大洗牌:低代码平台逆袭,传统LLM框架日渐式微

    终于!当前的大模型开发生态,被一份报告、完整全景图谱讲清楚了。 就在第十届527蚂蚁技术日上,蚂蚁通过Coding范式、数据、模型部署等角度,对现有开源生态进行了全面完整的大剖析,从数据的视角揭示了大模型开源生态的演进规律,如果你是大模型开发者或者潜在的开发者,几乎研究好这份报告可能就够了。 但这还不够,在报告出炉之前的周末,蚂蚁还发布了2025大模型开源生…

    2025年5月29日
    1000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信