数据空间研究中心于近日在空间智能——3D生成领域发表了一项重要的研究成果。
项目主页:https://dreamscene-project.github.io/
论文地址:https://arxiv.org/abs/2404.03575
代码开源:https://github.com/DreamScene-Project/DreamScene
基于文本的3D场景生成技术的发展,标志着3D内容创造领域的一次显著演变。它从创建简单对象到直接从文本构建真实的复杂场景,这一进步减轻了3D模型设计师的工作负担,并促进了游戏、电影和建筑领域的发展。然而目前的文生3D场景方法面临几个关键挑战,包括:1) 低效的生成过程,常导致低质量的生成和较长的生成时间 。2) 不一致的3D场景视角,仅在有限视角下有着良好的渲染结果。3) 无法将对象与环境分开,阻碍了对单个元素的灵活编辑。
李浩冉同学对文生3D场景的方法进行了调研,并与香港科技大学、香港理工大学以及奥胡斯大学的研究者们合作开展研究。经过长时间的探索与实验,所取得的研究成果以论文形式发表于计算机视觉三大顶级会议之一的ECCV2024(The 18th European Conference on Computer Vision),论文题为“DreamScene: 3D Gaussian-based Text-to-3D Scene Generation via Formation Pattern Sampling”。
技术方案
DreamScene主要由形成模式采样和相机采样两部分构成。形成模式采样基于3D模型生成规律,涵盖多时间步采样、3D高斯过滤及重建式生成三种操作;而相机采样则通过三阶段策略逐步构建3D环境,确保场景视角的全局一致性。总体算法流程如图所示,DreamScene首先使用大型语言模型根据文本描述分离出场景中的物体描述与环境描述。它首先生成场景中的单个物体,利用Point-E获取初始点云,随后应用形成模式采样生成与文本对应的3D表示;接着,将生成的物体按照布局摆放在适当位置;最后,对环境四周进行构建,将室内场景初始化为长方体,室外场景初始化为半球体,通过三阶段优化,分别优化远处环境、近处地面及整体场景。
形成模式采样在DreamScene中主要采用多时间步采样,该策略在每次迭代中结合了多个2D扩散模型时间步的指导信息。这些时间步通过在线性递减的滑动窗口上层抽样获得,此优化策略不仅在优化过程 中强化了对3D内容的形状约束,还增强了语义信息的丰富性。此外,生成过程中过量的3D高斯会阻碍优化,因此DreamScene采用3D高斯过滤技术,在优化过程中去除多余的3D高斯,仅保留那些距离渲染平面较近且体积较大的3D高斯。在优化的后期阶段,较小步长的信息有助于提供一致且精细的纹理信息,从而DreamScene采用重建式生成方法加快表面真实纹理的3D生成。
对于环境生成,DreamScene实施了一个分阶段的相机采样策略。在第一阶段,通过在场景中心围绕一定范围内采样相机位姿,生成周围环境如室内墙壁和室外远景的粗略表现。第二阶段中,通过采样特定区域的相机位姿生成粗糙的地面,并确保地面与周边环境的接触部分保持连贯。第三阶段则利用前两阶段中所有的相机位姿来综合优化所有环境元素,并通过3D重建技术增加更合理的纹理和细节。
实验评估
对比试验 下图展示了DreamScene场景生成的定性对比实验,上半部分图像采用生成时出现的相机位姿渲染,下图是在场景中随机选择的相机位姿渲染。我们可以看到Text2Room 和Text2NeRF只能在生成过程中遇到的相机位姿下生成令人满意的结果,DreamScene 实现了最佳的 3D 一致性,同时有着很高的生成质量。
下图展示了形成模式采样可以在短时间内根据文本提示生成高质量的 3D 表示,DreamGaussian 的速度更快但生成质量太低。
作者计算了环境生成阶段的生成时间。如下表的左侧显示,具有编辑功能的环境生成方法中DreamScene的时间最短,右侧显示了用户研究,其中DreamScene在一致性和合理性方面明显优于其他SOTA方法,生成质量最高。
一致性 如下图所示DreamScene的生成结果在较高生成质量的同时,保证了较好的3D一致性。
编辑性DreamScene可以添加或删除对象或者通过调整对象的仿射变量的值来重新设计其在场景中的位置。在进行这些编辑时,用户需要在物体的原始位置和新位置重新采样相机姿势,重新优化地面和周围方向。此外,用户还可以改变文本提示来改变场景中的环境或对象的样式。
消融实验 在“A DSLR photo of Iron Man”提示下,经过30分钟优化后的结果。如下图所示,与DreamTime和DreamFusion中提到的分数蒸馏采样(SDS)相比,多时间步采样形成了更好的几何结构和纹理。形成模式采样是在多时间步采样的基础上建立起来的,采用重建式生成的方法来创建更加合理的纹理结构,在指导3D内容优化方面十分具有优越性。