「场景控制传送门：四合一物体传送，上交&蚂蚁出品」

程序猿 • 2025年12月1日 19:29:29 • 用户投稿 • 阅读 0

在常见的图像编辑操作中，图像合成是指将一张图片的前景物体与另一张背景图片结合，生成一张合成图的过程。合成后的图像在视觉效果上类似于将前景物体从一张图片传送到另一张背景图片上，如下图所示

图像合成在艺术创作、海报设计、电子商务、虚拟现实、数据增广等领域被广泛使用

通过简单的剪切粘贴得到的合成图可能会存在很多问题。在之前的研究工作中，图像合成衍生出不同的子任务，分别解决不同的子问题。举例来说，图像混合旨在解决前景和背景之间不自然的边界。图像和谐化旨在调整前景的光照使其与背景和谐。视角调整旨在调整前景的姿态，使其与背景匹配。物体放置旨在为前景物体预测合适的位置、大小、透视角度。阴影生成旨在为前景物体在背景上生成合理的阴影

根据下图所示，之前的研究工作以串行或并行的方式执行上述子任务，以获得逼真自然的合成图像。在串行框架中，我们可以根据实际需求有选择性地执行部分子任务

在并行框架下，目前流行的方法是使用扩散模型。它接受一张带有前景边界框的背景图片和一张前景物体图片作为输入，直接生成最终的合成图像。这样可以使得前景物体与背景图片无缝融合，光照和阴影效果合理，姿态与背景相适应

这个并行框架相当于同时执行多个子任务，无法有选择性地执行部分子任务，不具有可控性，可能会对前景物体的姿态或者颜色带来不必要或者不合理的改变

需要重写的是：

为了增强并行框架的可控性并有选择性地执行部分子任务，我们提出了可控图像合成模型 Controllable Image Composition (ControlCom)。如下图所示，我们使用一个指示向量作为扩散模型的条件信息，以控制合成图中前景物体的属性。指示向量是一个二维的二值向量，其中每个维度分别控制是否调整前景物体的光照属性和姿态属性，其中1表示调整，0表示保留

具体来说，(0,0)表示既不改变前景光照，也不改变前景姿态，只是将物体无缝融入背景图片，相当于图像混合（image blending）。(1,0)表示只改变前景光照使其与背景和谐，保留前景姿态，相当于图像和谐化（image harmonization）。(0,1)表示只改变前景姿态使其与背景匹配，保留前景光照，相当于视角调整（view synthesis）。(1,1)表示同时改变前景的光照和姿态，相当于现在的不可控并行图像合成

我们将四种任务纳入同一个框架，通过指示向量实现了四合一物体传送门的功能，可以将物体传送到场景中的指定位置。这项工作是由上海交通大学和蚂蚁集团合作完成的，代码和模型即将开源

请点击以下链接查看论文：https://arxiv.org/abs/2308.10040

代码模型链接：https://github.com/bcmi/ControlCom-Image-Composition

在下面的图中，我们展示了可控图像合成的功能

左边一列，前景物体的姿态原本就和背景图片适配，用户可能希望保留前景物体的姿态。之前的方法 PbE [1]、ObjectStitch [2] 会对前景物体的姿态做出不必要且不可控的改变。我们方法的 (1,0) 版本能够保留前景物体的姿态，将前景物体无缝融入背景图片且光照和谐

TextCortex

AI写作能手，在几秒钟内创建内容。

62 查看详情

右侧的一列中，前景物体的光照本应与背景光照相同。以往的方法可能会导致前景物体的颜色发生意外的变化，例如车辆和服装的颜色。我们的方法（版本0.1）能够保留前景物体的颜色，并同时调整其姿态，使其自然地融入背景图片中

接下来，我们展示更多我们方法四个版本 (0,0),(1,0),(0,1),(1,1) 的结果。可以看出在使用不同指示向量的情况下，我们的方法能够有选择性地调整前景物体的部分属性，有效控制合成图的效果，满足用户不同的需求。

我们需要重新写的内容是：能够实现四种功能的模型结构是什么样的呢？我们的方法采用了以下模型结构，模型的输入包括带有前景边界框的背景图片和前景物体图片，将前景物体的特征和指示向量结合到扩散模型中

我们重新提取了前景物体的全局特征和局部特征，并先融合全局特征，再融合局部特征。在局部融合的过程中，我们使用了对齐的前景特征图进行特征调制，以实现更好的细节保留。同时，在全局融合和局部融合中都使用了指示向量，以更充分地控制前景物体的属性

我们使用预训练的稳定扩散算法，基于OpenImage的190万张图片来训练模型。为了同时训练四个子任务，我们设计了一套数据处理和增强的流程。有关数据和训练的详细信息，请参阅论文

我们在COCOEE数据集和自己构建的数据集上进行了测试。由于之前的方法只能实现不可控的图像合成，所以我们与(1,1)版本和之前的方法进行了比较。比较结果如下图所示，PCTNet是一种图像和谐化方法，能够保留物体的细节，但不能调整前景的姿态，也不能补全前景物体。其他方法能够生成相同种类的物体，但在细节保留方面效果较差，例如衣服的款式、杯子的纹理、鸟的羽毛颜色等等

我们的方法相比之下能够更好地保留前景物体的细节，补全不完整的前景物体，并且调整前景物体的光照、姿势以及与背景的适配

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

这项工作是对可控图像合成的首次尝试，任务非常困难，仍然存在许多不足之处，模型的表现不够稳定和鲁棒。此外，除了光照和姿态之外，前景物体的属性还可以进一步细化，如何实现更细粒度的可控图像合成是一个更具挑战性的任务

为了保持原意不变，需要重写的内容是：参考文献

杨，古，张，张，陈，孙，陈，文（2023年）。以示例为基础的图像编辑与扩散模型。在CVPR中

[2] 宋永忠，张智，林志龙，科恩，S. D.，普莱斯，B. L.，张静，金素英，阿里亚加，D. G. 2023。ObjectStitch：生成式物体合成。在CVPR中

以上就是「场景控制传送门：四合一物体传送，上交&蚂蚁出品」的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/968053.html

图像合成图像编辑理论

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

电视dns怎么优化_智能电视dns服务器优化配置教程

上一篇 2025年12月1日 19:29:29

sql怎样使用group_concat合并分组字段值 sqlgroup_concat合并值的实用技巧

下一篇 2025年12月1日 19:29:30

html的基础理论

本篇文章给大家分享的是关于html基础理论知识，内容很不错，有感兴趣的朋友可以看一下 HTML 语义化 HTML标签的语义化是指：通过使用包含语义的标签（如h1-h6）恰当地表示文档结构 css命名的语义化是指：为html标签添加有意义的class 为什么需要语义化：立即学习“前端免费学习笔记（…

程序猿
好文分享 2025年12月21日
0000
北航打破模态壁垒，跨可见光-红外模态的通用物理对抗攻击方法来了

近年来，针对视觉感知系统安全性评估的探索逐步深入，先后有研究者成功实现基于眼镜、贴纸、衣服等不同载体的可见光模态安全评估技术，也有一些针对红外模态的新尝试。但是它们都只能作用于单一模态。随着人工智能技术的发展，可见光 – 热红外成像技术已同时应用于治安监控、自动驾驶等诸多安全关键任务中…

程序猿
2025年12月1日 • 用户投稿
1000
把LLM视作操作系统，它就拥有了无限「虚拟」上下文，伯克利新作已揽1.7k star

近年来，大语言模型（llm）及其底层的 transformer 架构已经成为了对话式 ai 的基石，并催生了广泛的消费级和企业应用程序。尽管有了长足的进步，但 llm 使用的固定长度的上下文窗口极大地限制了对长对话或长文档推理的适用性。即使是使用最广泛的开源 llm，它们的最大输入长度只允许支持几十…

程序猿
2025年12月1日 • 用户投稿
0000
AMD与约翰霍普金斯大学联手：AI实验室copilot自动化科研，成本节约84%！

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 2049 科学研究，尤其是机器学习领域的研究，往往需要大量的时间和资源投入，从最初的构思到最终的结果产出，每一步都充满了挑战。近年来，大型语言模型（Large Language Mo…

程序猿
2025年12月1日 • 用户投稿
0000
五个时间序列预测的深度学习模型对比总结

Makridakis M-Competitions系列（分别称为M4和M5）分别在2018年和2020年举办（M6也在今年举办了）。对于那些不了解的人来说，m系列得比赛可以被认为是时间序列生态系统的一种现有状态的总结，为当前得预测的理论和实践提供了经验和客观的证据。 2018年M4的结果表明，纯粹的…

程序猿
2025年11月27日 • 用户投稿
0000
机器学习为未来核聚变发电厂寻找合适的氢同位素组合

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 白菜叶恒星的动力来源——核聚变——被提议作为人类未来的能源，并且可以提供清洁和可再生的能源，而无需与当前核裂变工厂相关的放射性废物。就像从太阳溢出能量的聚变过程一样，未来的核聚变设…

程序猿
2025年11月27日 • 用户投稿
0000
10万美元+26天，一个低成本千亿参数LLM就诞生了

包括仅解码器结构（如 GPT 和 LLAMA 系列模型）、仅编码器结构（如 BERT）和编码器 – 解码器结构（如 T5）以及它们的变体模型在内的大型语言模型（LLM）已经取得了非凡的成功，并已被广泛用于各种语言处理和多模态任务。尽管如此成功，训练 LLM 的成本还是过于高昂，以至于仅…

程序猿
2025年11月27日 • 用户投稿
0000
【论文解读】基于图的自监督学习联合嵌入预测架构

一、简要介绍 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 本文演示了一种学习高度语义的图像表示的方法，而不依赖于手工制作的数据增强。论文介绍了基于图像的联合嵌入预测架构（I-JEPA），这是一种用于从图像中进行自监督学习的非生成性方法。I…

程序猿
2025年11月26日 • 用户投稿
1000
AI炼金术革新化学：MIT学者使用生成式AI，六秒生成新化学反应

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 需要重新书写的是：编辑 | 凯霞化学从远古的「等价交换」炼金术开始，一直是一门研究和控制物质间相互作用的学科。通过不断解锁和利用新的化学反应，人们开发了许多新材料。这些新材料不仅为人们的生活带…

程序猿
2025年11月26日 • 用户投稿
2000
AI4Science的基石：几何图神经网络，最全综述来了！人大高瓴联合腾讯AI lab、清华、斯坦福等发布

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | XS Nature 在 2023 年 11 月发表了两项重要研究成果：蛋白质合成技术 Chroma 和晶体材料设计方法 GNoME。这两项研究都采用了图神经网络作为处理科学数据的工具。…

程序猿
2025年11月26日 • 用户投稿
0000
多功能RNA分析，百度团队基于Transformer的RNA语言模型登Nature子刊

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 萝卜芯预训练语言模型在分析核苷酸序列方面显示出了良好的前景，但使用单个预训练权重集在不同任务中表现出色的多功能模型仍然存在挑战。百度大数据实验室（Big Data Lab，BDL）…

程序猿
2025年11月26日 • 用户投稿
0000
微软发布首个大气AI基础模型Aurora

编辑 | scienceai 在2023年11月，飓风“夏兰”（Ciarán）袭击欧洲西北部，造成严重破坏。与风暴Ciarán相关的低压系统为英格兰创下了新纪录，这是一次极为罕见的气象事件。那场风暴的强度让许多人措手不及，暴露了当前天气预报模型的局限性，并突显出面对气候变化需要更准确的预测。当大家…

程序猿
2025年11月26日 • 用户投稿
2000
AI小分子药物发现的「百科全书」，康奈尔、剑桥、EPFL等研究者综述登Nature子刊

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 作者 | 康奈尔大学杜沅岂编辑 | ScienceAI 随着 AI for Science 受到越来越多的关注，人们更加关心 AI 如何解决一系列科学问题并且可以被成功借鉴到其他相近的领域。 …

程序猿
2025年11月26日 • 用户投稿
0000
高效且准确，郑州大学团队开发新AI工具识别药物-靶标相互作用

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 枯叶蝶准确识别药物-靶标相互作用（DTI）是药物发现和药物重新定位过程中的关键步骤之一。目前，许多基于计算的模型已被提出，用于预测 DTI，并取得了一些显著的进步。然而，这些方法…

程序猿
2025年11月26日 • 用户投稿
1000
Llama分子嵌入优于GPT，LLM能理解分子吗？这一局Meta赢了OpenAI

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 萝卜皮 OpenAI 的 GPT 和 Meta AI 的 Llama 等大型语言模型（LLM）因其在化学信息学领域的潜力而日益受到认可，特别是在理解简化分子输入行输入系统（SMILES…

程序猿
2025年11月26日 • 用户投稿
0000
通过深度学习预测离散时间分岔

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 白菜叶许多自然和人造系统都容易发生关键转变——动态方面的突然且可能具有破坏性的变化。深度学习分类器可以通过从大型模拟训练数据集中学习分叉的通用特征，为关键转变提供预警信号。到目前为止，…

程序猿
2025年11月26日 • 用户投稿
0000
CVPR 2024 ｜自动驾驶世界模型四维时空预训练

北京大学与evlo创新团队共同提出面向自动驾驶的四维时空预训练算法driveworld。该方法采用世界模型进行预训练，设计记忆状态空间模型进行四维时空建模，通过预测场景的占据栅格，降低自动驾驶面临的随机不确定性和知识不确定性。该论文已被cvpr 2024接收。 ☞☞☞AI 智能聊天, 问答助手, A…

程序猿
2025年11月26日 • 用户投稿
0000
筛选数十亿化合物库，华盛顿大学药物AI虚拟筛选平台，登Nature子刊

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | KX 基于结构的虚拟筛选在药物发现中发挥着重要作用，科学家对数十亿种化合物库的筛选越来越感兴趣。但只有少数的筛选取得成功，此外，对于基于物理的对接方法而言，对整个超大型库进行虚拟筛选…

程序猿
2025年11月26日 • 用户投稿
2000
从预测风暴到设计分子，微软的 AI 基础模型如何加速科学发现

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | ScienceAI 人们总是在寻找规律来解释宇宙，并预测未来。俗话说，「朝霞不出门，晚霞行千里」，人们常常用它来预测天气。 AI 非常擅长发现模式并进行预测。现在，微软研究人员正在尝试…

程序猿
2025年11月26日 • 用户投稿
0000
诺奖颁给交叉学科，对「AI for Science」意味着什么？

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 诺贝尔物理学奖授予 AI 科学家编辑 | X_X 2024 年 10 月 8 日，诺贝尔物理学奖授予了两位人工智能（AI）领域的科学家以表彰他们的发现。诺贝尔奖评审团表示，被誉为「人工智能教…

程序猿
2025年11月26日 • 用户投稿
0000

发表回复

登录后才能评论

「场景控制传送门：四合一物体传送，上交&蚂蚁出品」

关于作者

相关推荐

发表回复