MVDiffusion：实现高质量多视角图像生成与精确复刻场景材质

程序猿 • 2025年12月2日 10:03:35 • 用户投稿 • 阅读 1

逼真的图像生成在虚拟现实、增强现实、视频游戏和电影制作等领域有广泛应用。

随着近两年来扩散模型的快速发展，图像生成领域取得了重大突破。从Stable Diffusion衍生出的一系列根据文本描述生成图像的开源或商业模型，已经对设计、游戏等领域产生了巨大的影响

然而，如何根据给定的文本或其他条件，产生高质量的多视角图像仍然是一个挑战。已有的方法在多视图一致性方面存在明显的缺陷

目前常见的方法可以大致分为两类

第一类方法致力于生成一个场景的图片以及深度图，并得到对应的mesh，如Text2Room，SceneScape——首先用Stable Diffusion生成第一张图片，然后使用图像扭转（Image Warping）和图像补全（image inpainting）的自回归方式生成后续的图片以及深度图。

但是，这样的方案容易导致错误在多张图片的生成过程中逐渐累积，并且通常存在闭环问题（比如在相机旋转一圈回到起始位置附近时，生成的内容与第一张图片并不完全一致），导致其在场景规模较大或图片间视角变化较大时的效果欠佳。

第二类方法通过扩展扩散模型的生成算法，同时生成多张图片，以产生比单张图片更丰富的内容（例如生成360度全景图，或将一张图片的内容向两侧无限外推），例如MultiDiffusion和DiffCollage。然而，由于没有考虑相机模型，这类方法生成的结果并不是真正的全景图

MVDiffusion的目标是生成符合给定相机模型的多视角图片，这些图片在内容上严格一致且具有全局语义统一。该方法的核心思想是同时去噪和学习图片之间的对应关系以保持一致性

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

请点击以下链接查看论文：https://arxiv.org/abs/2307.01097

请访问项目网站：https://mvdiffusion.github.io/

Demo: https://huggingface.co/spaces/tangshitao/MVDiffusion

代码：https://github.com/Tangshitao/MVDiffusion

会议发表：NeurIPS（重点）

MVDiffusion的目标是通过同步去噪和基于图片之间对应关系的全局意识，产生内容高度一致且全局语义统一的多视角图片

具体地，研究人员对已有的文本-图片扩散模型（如Stable Diffusion）进行拓展，首先让其并行地处理多张图片，并进一步在原本的UNet中加入额外的「Correspondence-aware Attention」机制来学习多视角间的一致性和全局的统一性。

通过在少量的多视角图片训练数据上进行微调，最后得到的模型能够同步生成内容高度一致的多视角图片。

MVDiffusion在三个不同的应用场景中已经取得了很好的效果：

根据文字生成多视图，然后拼接以获得全景图

2. 将透视图像外推（outpainting）得到完整的360度全景图；

3. 为场景生成材质（texture）。

应用场景展示

应用1：全景图生成的过程是将多张照片或视频拼接在一起，以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成，人们可以以更广阔的视野来欣赏和体验场景，例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用（根据文字）

以生成全景图为例，输入一段描述场景的文字，MVDIffusion可以生成一个场景的多视角图片

输入以下内容可以获得8张多视角图片：“这个厨房是乡村与现代的迷人融合，拥有一个大型的回收木岛台带有大理石台面，一个被橱柜环绕的水槽。岛台的左边是一台高大的不锈钢冰箱。水槽的右边是涂有柔和色彩的内置木制橱柜。”

这8张图片能够拼接成一张全景图：

MVDiffusion也支持为每张图片提供不同的文字描述，但是这些描述之间需要保持语义上的一致性。

应用2：全景图生成的过程是将多张照片或视频拼接在一起，以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成，人们可以以更广阔的视野来欣赏和体验场景，例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用（根据一张透视图像）

MVDiffusion能够将一张透视图像外推（outpainting）成完整的360度全景图。

举个例子，假设我们输入下面这张透视图：

MVDiffusion能进一步生成下面的全景图：

可以看到，生成的全景图在语义上对输入图片进行了扩展，而且最左和最右的内容是相连的（没有闭环问题）。

应用3：生成场景材质

使用MVDiffusion可以为给定的无材质场景网格生成材质（纹理）

具体地，我们首先通过渲染mesh得到多视角的深度图（depth map），通过相机位姿(pose)以及深度图，我们可以获得多视角图片的像素之间的对应关系。

接着，MVDiffusion以多视角depth map作为条件，同步生成一致的多视角RGB图片。

因为生成的多视角图片能保持内容的高度一致，将它们再投回mesh，即可以得到高质量的带材质的mesh（textured mesh）。

以下是更多的效果示例：

全景图生成的过程是将多张照片或视频拼接在一起，以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成，人们可以以更广阔的视野来欣赏和体验场景，例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用

ImagetoCartoon

一款在线AI漫画家，可以将人脸转换成卡通或动漫风格的图像。

106 查看详情

在这个应用场景中，需要特别提到的是，虽然在训练MVDiffusion时使用的多视角图片数据都来自于室内场景的全景图，而且风格都是单一的

然而，MVDiffusion并没有改变原始的稳定扩散参数，而只是对新加入的Correspondence-aware Attention进行了训练

最后，模型依然能根据给定的文本产生各种不同风格的多视角图片（如室外，卡通等）。

需要进行改写的内容是：单视图外推

场景材质生成

我们将首先介绍MVDiffusion在三个不同任务中的具体图片生成流程，最后再介绍方法的核心部分，即「Correspondence-aware Attention」模块。图1展示了MVDiffusion的概览

1. 全景图生成的过程是将多张照片或视频拼接在一起，以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成，人们可以以更广阔的视野来欣赏和体验场景，例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用（根据文字）

MVDiffusion同步生成8张带有重叠的图片（perspective image），然后再将这8中图片缝合（stitch）成全景图。在这8张透视图中，每两张图之间由一个3×3单应矩阵（homographic matrix）确定其像素对应关系。

在具体的生成过程中，MVDiffusion首先使用高斯随机初始化来生成8个视角的图片

然后，将这8张图片输入到一个具有多分支的Stable Diffusion预训练Unet网络中，进行同步去噪（denoising）得到生成结果。

其中UNet网络中加入了新的「Correspondence-aware Attention」模块（上图中淡蓝色部分），用于学习跨视角之间的几何一致性，使得这8张图片可以被拼接成一张一致的全景图。

2. 全景图生成的过程是将多张照片或视频拼接在一起，以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成，人们可以以更广阔的视野来欣赏和体验场景，例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用（根据一张透视图片）

MVDiffusion也可以将单张透视图补全成全景图。与全景图生成的过程是将多张照片或视频拼接在一起，以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成，人们可以以更广阔的视野来欣赏和体验场景，例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用相同，MVDiffusion将随机初始化的8个视角图片（包括透视图对应的视角）输入到多分支的Stable Diffusion Inpainting预训练的UNet网络中。

在Stable Diffusion Inpainting模型中，与之不同的是，UNet通过使用额外的输入掩码（mask）来区分作为条件的图片和将要生成的图片

透视图对应的视角，掩码设为1，该分支的UNet将直接恢复透视图。而其他视角，掩码设为0，对应分支的UNet将生成新的透视图

同样地，MVDiffusion使用「Correspondence-aware Attention」模块来学习生成图片与条件图片之间的几何一致性与语义统一性。

3. 场景材质生成

MVDiffusion首先基于深度图以及相机位姿生成一条轨迹上的RGB图片，然后使用TSDF fusion将生成的RGB图片与给定的深度图合成mesh。

RGB图片的像素对应关系可以通过深度图和相机位姿得到。

与全景图生成的过程是将多张照片或视频拼接在一起，以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成，人们可以以更广阔的视野来欣赏和体验场景，例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用一样，我们使用多分支UNet，并插入「Correspondence-aware Attention」来学习跨视角之间的几何一致性。

4. Correspondence-aware Attention机制

「Correspondence-aware Attention」（CAA），是MVDiffusion的核心，用于学习多视图之间的几何一致性和语义统一性。

MVDiffusion在Stable Diffusion UNet中的每个UNet block之后插入「Correspondence-aware Attention」block。CAA通过考虑源特征图和N个目标特征图来工作。

对于源特征图中的一个位置，我们基于目标特征图中的对应像素及其邻域来计算注意力输出。

具体来说，对于每个目标像素t^l，MVDiffusion会通过在(x/y)坐标上添加整数位移(dx/dy)来考虑一个K x K的邻域，其中|dx|表示在x方向上的位移大小，|dy|表示在y方向上的位移大小

在实际应用中，MVDiffusion算法使用K=3，并选择9点邻域来提高全景图的质量。然而，在生成受几何条件限制的多视图图像时，为了提高运行效率，选择使用K=1

CAA模块的计算遵循标准的注意力机制，如上图的公式所示，其中W_Q、W_K和W_V是query、key和value矩阵的可学习权重；目标特征不位于整数位置，而是通过双线性插值获得的。

关键的区别是基于源图像中的对应位置s^l与s之间的2D位移（全景）或1D深度误差（几何）向目标特征添加了位置编码。

在全景生成中（应用1和应用2），这个位移提供了本地邻域中的相对位置。

而在深度到图像生成中（应用3），视差提供了关于深度不连续或遮挡的线索，这对于高保真图像生成非常重要。

请注意，位移是一个包含2D（位移）或1D（深度误差）向量的概念。MVDiffusion将标准频率编码应用于位移的x和y坐标

以上就是MVDiffusion：实现高质量多视角图像生成与精确复刻场景材质的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1050576.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

在Java中如何搭建MySQL数据库环境用于Java开发_Java数据库开发环境配置指南

上一篇 2025年12月2日 10:03:34

SQL实时聚合统计如何实现_SQL实时聚合数据处理方法

下一篇 2025年12月2日 10:03:38

好文分享

Uniapp 中如何不拉伸不裁剪地展示图片？

灵活展示图片：如何不拉伸不裁剪在界面设计中，常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。对于不同尺寸的图片，可以采用以下处理方式：极端宽高比：撑满屏幕宽度或高度，再等比缩放居中。非极端宽高比：居中显示，若能撑满则撑满。然而，如果需要不拉伸不…

程序猿
2025年12月24日
4000
好文分享

如何让小说网站控制台显示乱码，同时网页内容正常显示？

如何在不影响用户界面的情况下实现控制台乱码？当在小说网站上下载小说时，大家可能会遇到一个问题：网站上的文本在网页内正常显示，但是在控制台中却是乱码。如何实现此类操作，从而在不影响用户界面（UI）的情况下保持控制台乱码呢？答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体，并通过在客户端…

程序猿
2025年12月24日
8000
好文分享

如何在地图上轻松创建气泡信息框？

地图上气泡信息框的巧妙生成地图上气泡信息框是一种常用的交互功能，它简便易用，能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。利用地图库的原生功能大多数地图库，如高德地图，都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现：高德地图 JS API 参考文…

程序猿
2025年12月24日
4000
好文分享

如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画？

如何实现元素scrollleft变化时的平滑动画效果？在许多网页应用中，滚动容器的水平滚动条（scrollleft）需要频繁使用。为了让滚动动作更加自然，你希望给scrollleft的变化添加动画效果。解决方案：scroll-behavior 属性要实现scrollleft变化时的平滑动画效果…

程序猿
2025年12月24日
0000
好文分享

如何为滚动元素添加平滑过渡，使滚动条滑动时更自然流畅？

给滚动元素平滑过渡如何在滚动条属性（scrollleft）发生改变时为元素添加平滑的过渡效果？解决方案：scroll-behavior 属性为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码： click the button to slide right!…

程序猿
2025年12月24日
6000
好文分享

如何选择元素个数不固定的指定类名子元素？

灵活选择元素个数不固定的指定类名子元素在网页布局中，有时需要选择特定类名的子元素，但这些元素的数量并不固定。例如，下面这段 html 代码中，activebar 和 item 元素的数量均不固定： *n *n 如果需要选择第一个 item元素，可以使用 css 选择器 :nth-child()。该…

程序猿
2025年12月24日
3000
好文分享

使用 SVG 如何实现自定义宽度、间距和半径的虚线边框？

使用 svg 实现自定义虚线边框如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片，但是这种方法存在引入外部资源、性能低下的缺点。为了避免上述问题，可以使用 svg（可缩放矢量图形）来创建纯代码实现。一种方…

程序猿
2025年12月24日
2000
好文分享

如何让“元素跟随文本高度，而不是撑高父容器？

如何让元素跟随文本高度，而不是撑高父容器在页面布局中，经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中，父容器被较高的图片撑开，而文本的高度没有被考虑。本问答将提供纯css解决方案，让图片跟随文本高度，确保父容器的高度不会被图片影响。解决方法为了解决这个问题，需要将图片从文档流中脱离…

程序猿
2025年12月24日
1000
好文分享

为什么 CSS mask 属性未请求指定图片？

解决 css mask 属性未请求图片的问题在使用 css mask 属性时，指定了图片地址，但网络面板显示未请求获取该图片，这可能是由于浏览器兼容性问题造成的。问题如下代码所示：立即学习“前端免费学习笔记（深入）”； icon [data-icon=”cloud”] { –icon-cl…

程序猿
2025年12月24日
3000
好文分享

如何利用 CSS 选中激活标签并影响相邻元素的样式？

如何利用 css 选中激活标签并影响相邻元素？为了实现激活标签影响相邻元素的样式需求，可以通过 :has 选择器来实现。以下是如何具体操作：对于激活标签相邻后的元素，可以在 css 中使用以下代码进行设置： li:has(+li.active) { border-radius: 0 0 10px…

程序猿
2025年12月24日
2000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
3000
好文分享

为什么我的 Safari 自定义样式表在百度页面上失效了？

为什么在 Safari 中自定义样式表未能正常工作？在 Safari 的偏好设置中设置自定义样式表后，您对其进行测试却发现效果不同。在您自己的网页中，样式有效，而在百度页面中却失效。造成这种情况的原因是，第一个访问的项目使用了文件协议，可以访问本地目录中的图片文件。而第二个访问的百度使用了 ht…

程序猿
2025年12月24日
1000
好文分享

如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果？

如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果，可以通过以下途径： CSS 解决方案 DEMO 1: Windows 10 网格悬停效果：https://codepen.io/tr4553r7/pe…

程序猿
2025年12月24日
1000
好文分享

使用CSS mask属性指定图片URL时，为什么浏览器无法加载图片？

css mask属性未能加载图片的解决方法使用css mask属性指定图片url时，如示例中所示： mask: url(“https://api.iconify.design/mdi:apple-icloud.svg”) center / contain no-repeat; 但是，在网络面板中却…

程序猿
2025年12月24日
1000
好文分享

如何用CSS Paint API为网页元素添加时尚的斑马线边框？

为元素添加时尚的斑马线边框在网页设计中，有时我们需要添加时尚的边框来提升元素的视觉效果。其中，斑马线边框是一种既醒目又别致的设计元素。实现斜向斑马线边框要实现斜向斑马线间隔圆环，我们可以使用css paint api。该api提供了强大的功能，可以让我们在元素上绘制复杂的图形。立即学习“前端…

程序猿
2025年12月24日
1000
好文分享

图片如何不撑高父容器？

如何让图片不撑高父容器？当父容器包含不同高度的子元素时，父容器的高度通常会被最高元素撑开。如果你希望父容器的高度由文本内容撑开，避免图片对其产生影响，可以通过以下 css 解决方法：绝对定位元素： .child-image { position: absolute; top: 0; left: …

程序猿
2025年12月24日
1000
CSS 帮助

我正在尝试将文本附加到棕色框的左侧。我不能。我不知道代码有什么问题。请帮助我。 css .hero { position: relative; bottom: 80px; display: flex; justify-content: left; align-items: start; color:…

程序猿
2025年12月24日 • 好文分享
3000
好文分享

前端代码辅助工具：如何选择最可靠的AI工具？

前端代码辅助工具：可靠性探讨对于前端工程师来说，在HTML、CSS和JavaScript开发中借助AI工具是司空见惯的事情。然而，并非所有工具都能提供同等的可靠性。个性化需求关于哪个AI工具最可靠，这个问题没有一刀切的答案。每个人的使用习惯和项目需求各不相同。以下是一些影响选择的重要因素：立…

程序猿
2025年12月24日
1000
好文分享

如何用 CSS Paint API 实现倾斜的斑马线间隔圆环？

实现斑马线边框样式：探究 css paint api 本文将探究如何使用 css paint api 实现倾斜的斑马线间隔圆环。问题：给定一个有多个圆圈组成的斑马线图案，如何使用 css 实现倾斜的斑马线间隔圆环？答案：立即学习“前端免费学习笔记（深入）”；使用 css paint api…

程序猿
2025年12月24日
1000
好文分享

如何使用CSS Paint API实现倾斜斑马线间隔圆环边框？

css实现斑马线边框样式想定制一个带有倾斜斑马线间隔圆环的边框？现在使用css paint api，定制任何样式都轻而易举。 css paint api 这是一个新的css特性，允许开发人员创建自定义形状和图案，其中包括斑马线样式。立即学习“前端免费学习笔记（深入）”；实现倾斜斑马线间隔圆环 …

程序猿
2025年12月24日
1000