论文解读一篇关于语义生成论文(要求控制单独语义生成)

本文聚焦语义多模态图像合成(SMIS)任务,旨在通过特定类控制器调整对应区域生成图像,且不影响其他部分。针对现有方法局限,提出GroupDNet,利用组卷积并逐步减少解码器组数,提升可控性与生成质量。实验表明其优越性,还能支持多种合成应用。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文解读一篇关于语义生成论文(要求控制单独语义生成) - 创想鸟

论文分享

PS:哪里觉得不理解大家可以一起探讨

论文题目:Semantically Multi-modal Image Synthesis

题目翻译:多模态语义信息图像合成

论文地址:https://arxiv.org/abs/2003.12697

论文代码地址: https://github.com/Seanseattle/SMIS

相信看到这个题目大家有点懵逼,于是我打算让大家看看论文开始的摘要。

1. Abstract

        在本文中,我们着重于语义多模态图像合成(SMIS)任务,即在语义层次上生成多模态图像。以前的工作试图使用多个特定于类的生成器,限制其在具有少量类的数据集中的使用。相反,我们提出了一种新的群减少网络(GroupDNet),它利用生成器中的组卷积,并逐步减少解码器中卷积的组数。因此,GroupDNet在将语义标签转换为自然图像方面具有更多的可控性,并且对于具有许多类的数据集具有合理的高质量产量。在几个具有挑战性的数据集上进行的实验证明了GroupDNet在执行SMIS任务方面的优越性。我们还表明,GroupDNet能够执行广泛的有趣的合成应用程序。 在本文中,我们着重于语义多模态图像合成(SMIS)任务,即在语义层次上生成多模态图像。以前的工作试图使用多个特定于类的生成器,限制其在具有少量类的数据集中的使用。相反,我们提出了一种新的群减少网络(GroupDNet),它利用生成器中的组卷积,并逐步减少解码器中卷积的组数。因此,GroupDNet在将语义标签转换为自然图像方面具有更多的可控性,并且对于具有许多类的数据集具有合理的高质量产量。在几个具有挑战性的数据集上进行的实验证明了GroupDNet在执行SMIS任务方面的优越性。我们还表明,GroupDNet能够执行广泛的有趣的合成应用程序。

这个时候大家会发现关键词就出现了,SMIS。这篇论文就提出了一种模型架构更好的实现这个任务。因此接下来我带着大家继续阅读什么叫做SMIS任务。

2. SMIS任务解释

只是想象一下一个来自人类解析映射的内容创建场景。在语义到图像的转换模型的帮助下,解析映射(就是语义分割信息)可以转换为每个真实的图片。一般来说看起来不错,但生成的衣服上身不适合你的口味。然后问题就出现了,要么这些模型不支持多模态合成,要么当这些模型改变了上身时,其他部分也会随之变化。这些都不能满足你的意图。总之,这个用户可控的内容创建场景可以被解释为执行一个任务,在语义级别上产生多模态结果,而其他语义部分没有被触及。 我们将这个任务总结为:语义多模态图像合成(SMIS)。对于每个语义,我们都有它特定的控制器。通过调整特定类的控制器,只有相应的区域被相应地改变。 这里论文举了一个小小的例子,见figure 1。论文解读一篇关于语义生成论文(要求控制单独语义生成) - 创想鸟        

对于SMIS挑战详细阐述

设M表示一个语义分割掩码。假设在数据集中有C个语义类。H和W分别表示图像的高度和宽度。作为一个非常明了的方式去引导label-to-image模型变换。 生成器G需要M作为条件输入来生成图像。然而,为了支持多模态生成,我们需要另一个输入源来控制生成的多样性。通常,我们使用一个编码器来提取一个潜在代码Z作为控制器。在接收到这两个输入后,可以通过O=G(Z,M)产生图像输出O。然而,在语义多模态图像合成(SMIS)任务中,我们的目标是通过干扰特定类的潜在代码来产生语义不同的图像,该代码独立地控制相应类的多样性。

对于SMIS任务的挑战,关键是将潜在代码划分为一系列特定于类的潜在代码,每个潜在代码只控制一个特定的语义类的生成。传统的卷积编码器并不是一个最优的选择,因为所有类的特征表示都是内部纠缠在潜在的代码中。即使我们有特定于类的潜在代码,如何使用这些代码仍然存在问题。正如我们将在实验部分所说明的,简单地用特定于类的代码替换spade[38]中的原始潜在代码,处理SMIS任务的能力有限。这一现象促使我们需要在编码器和解码器中进行一些架构修改,以更有效地完成任务。

好了,此刻我已经把任务给描述清楚了,那么这个时候面对这个任务,我们的解决思路是什么,首先是剖析这个问题,SMIS和一般的语义生成任务有什么不同?它要求更细腻的语义控制。我认为有特征解耦的那个味道,像素级特征控制(那个英特尔的editgan,论文地址为(https://arxiv.org/pdf/2111.03186.pdf).

3. 面对问题思考

1. 首先第一种思路是基于每个语义类标签创建一个子网络,这样每一个语义都由一个模型控制,其潜在的思想是独立地处理每个类,然后融合不同子网的结果。为简单起见,我们将这种网络称为多重网络(MulNet)。这个想法很直接,但是不由自主的会出现问题:

1. 如果这个语义生成具体任务有100类那就需要100个子网络,就是这个子网络数量会随着类别数量增加而增加,参数增加的很快,相应训练方面也会有很多问题,训练时长,资源等,这种类型的方法很快就会面临性能的下降,训练时间的增加和计算资源消耗的线性增加。2. 各个语义信息部分的互动性较差。

       

2. 使用语义生成的SPADE,但是这个语义生成的SPADE原始框架很难进行控制单个语义。(这个SPADE就是这篇论文的backbone,然后论文就是基于spade进行修改)

3. 另一个有类似想法的替代方法是在整个网络中使用group convolutions。用group convolutions替换encoder和decoder中的所有卷积,并将组数设置为 class number,我们把这种网络称作为GroupNet。如果每一Group的通道数等于单个MulNet子网络中对应的通道数,则在理论上等价于MulNet。这里提到一个叫做GroupNet,卷积组数和标签类别相同.试图通过这样实现单个语义分开控制,就是nn.conv2d(groups = num_class)。

4. 然后呢,本文使用的是叫GroupDNet,这个和GroupNet的主要区别是decoder中groups数的单调减少。

论文解读一篇关于语义生成论文(要求控制单独语义生成) - 创想鸟        

这个时候吧,或许会有同学会问这个groupdnet改变思路如此简单会好用吗?

于是作者说了这个朴实操作背后的几层深意。


class balance。值得注意的是,不同的类有不同数量的实例[32,5,55],并且需要不同的网络容量来建模这些类。MulNet and GroupNet需要找到一个合适的网络设计来平衡所有的类。更重要的是,并非所有的类都出现在一个图像中。在这种情况下,MulNet and GroupNet不可避免地浪费了大量的计算资源,因为它们必须在训练或测试期间激活所有类的所有子网络或子组。然而,在GroupDNet中,不平衡类与其邻居类共享参数,极大地缓解了类不平衡的问题。


类相关性。在自然世界中,语义类通常与其他类有关系,例如草的颜色和树叶的颜色相似,建筑物影响附近道路上的阳光等。为了产生合理的结果,MulNet和GroupNet都有一个融合模块(几个规则卷积).在decoder的末尾,将不同类的特征合并为一个图像输出。一般来说,融合模块大致考虑了不同类之间的相关性。然而,我们认为这是不够的,因为不同类别之间的相关性太复杂了,不能通过使用这样一个具有有限的接受域的简单成分来充分探索。另一种选择是使用一些网络模块,如自注意块来捕获图像的长期依赖关系,但它的计算阻碍了它在这类场景中的使用(就是qkv计算需要太多的内存空间)。然而,GroupDNet在整个解码器中雕刻了这些关系;因此,它更准确和彻底地利用了相关性。因此,GroupDNet生成的图像比其他两种方法生成的图像更好、更真实。


GPU memory. 为了保证MulNet的每一个网络或分组网中每个类的分组参数有足够的容量,信道总数将随着类数的增加而显著增加。达到一定限度,显卡的最大GPU内存将不再能够容纳一个样本。正如我们对ADE20K数据集[55]的粗略估计那样,即使将批量大小设置为1,一个特斯拉V100显卡也不能容纳有足够容量的模型。但是,GroupDNet中的问题不那么严重,因为不同的类共享参数,因此没有必要为每个类设置如此多的通道。

4. 模型具体架构

此刻相信大家已经初具想法了,就是在SPADE基础上结合groupdnet的思路,用group conv替代普通的conv,好,放图,这就是这篇论文的主要架构。论文解读一篇关于语义生成论文(要求控制单独语义生成) - 创想鸟            

给大家对照解释一下,CG-Normal就是SPADE,CG-Block就是Spade-resblock. 给大家回顾一下SPADE模型图。论文解读一篇关于语义生成论文(要求控制单独语义生成) - 创想鸟论文解读一篇关于语义生成论文(要求控制单独语义生成) - 创想鸟            

详细说明模型架构流程

从本论文架构图可以看出,GroupDNet包含一个编码器和一个解码器。受VAE[26]和spade[38]思想的启发,编码器E产生了一个潜在的编码Z,该编码在训练过程中应该遵循一个高斯分布N(0,1)。在测试时,编码器E被丢弃。从高斯分布中随机抽样的编码代替z。为了实现这一点,我们使用重新参数化技巧[26]在训练过程中启用可微损失函数。具体来说,编码器通过两个全连接的层来预测一个平均向量和一个方差向量来表示编码的分布。编码z分布和高斯分布之间的差距可以通过施加kl-散度损失来最小化。

Encoder详解

Encoder:原文是这样的:论文解读一篇关于语义生成论文(要求控制单独语义生成) - 创想鸟            

我在这里给大家总结几个点:

这个输入的数据是比较奇特的Xc,我给大家简单介绍一下这个操作X是原图[b,3,h,w],Mc是 segmantation mask[b,class_num,h,w],接下来给大家看下我写的具体伪代码,这就是具体的操作:

images = Nonefor i in range(b):    image = None    for j in  range(class_num):        one = X[i] * Mc[i][j] #[3,h,w]        one = one.unsqueeze([0])#[1,3,h,w]        if image ==None:            image =one        else:            image = concat([image,one],axis = 1)               #image.shape = [1,3*class_num,h,w]    if images ==None:        images =image    else:        images = concat([images,image],axis = 0)        # images.shape = [b,3*class_num,h,w]

       

好了这个就是输入encoder的input,这样处理数据的核心含义是什么呢?作者是这么解释的:

该操作减少了Encoder处理特征解纠缠的一部分压力,节省了对特征进行精确编码的容量。

Encoder中的Groups 为class_num从输入和架构方面,Encoder解耦不同的class,使其彼此独立。因此,所编码的潜在代码Z由所有类的特定于类的潜在代码Zc(Z的一个离散部分)组成。在即将到来的解码阶段,Zc作为c类的控制器。说白了就是Encoder就是专心解耦,争取把特征解耦编码的Zc也可以明白具体控制哪个类。与产生两个向量作为高斯分布的均值和方差预测的一般方案不同,我们的编码器通过卷积层生成一个均值映射和一个方差映射,以在潜在代码Z中大规模保留结构信息。这个点我需要强调一下啊,因为原论文Spade的Encoder经过几层卷积后就把这个特征图,给resize打平成一维向量,这个操作很大程度破坏了原图的特征位置结构信息,再并联两个全连接得到均值和logvar。但是本篇论文就直接舍弃了resize这个操作,用卷积操作代替全连接,这样这个得到的均值和logvar就可以保留图片的结构信息.

decoder详解

论文解读一篇关于语义生成论文(要求控制单独语义生成) - 创想鸟 论文解读一篇关于语义生成论文(要求控制单独语义生成) - 创想鸟        

论文解读一篇关于语义生成论文(要求控制单独语义生成) - 创想鸟 论文解读一篇关于语义生成论文(要求控制单独语义生成) - 创想鸟        

以上就是论文解读一篇关于语义生成论文(要求控制单独语义生成)的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/42755.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月6日 21:17:23
下一篇 2025年11月6日 21:19:25

相关推荐

  • 实时加密深度分析平台盘点?3款开源数据源

    CryptoWatch开源接口提供高频更新的全球交易所深度数据,支持多语言调用与可视化渲染;2. TradingView开源脚本集成Pine Script模板,可自定义订单簿深度分析并设置买卖压力警报;3. OpenBB Terminal支持本地部署,结合命令行拉取加密资产深度数据,实现技术指标叠加…

    2025年12月11日
    000
  • 什么是“阶梯式挂单”?它和一次性挂单的区别是什么,如何降低成本?

    阶梯式挂单通过分批设置买卖价位,将总交易量拆分为多个小额订单,在不同价格区间形成阶梯状分布,以降低市场冲击并优化成交价格。相比一次性挂单可能造成的滑点大、深度不足问题,阶梯策略能更好适应市场波动,尤其适用于流动性较低的资产。其核心在于根据历史走势确定支撑阻力位,结合成交量分布合理设计每档价格间距与下…

    2025年12月11日
    000
  • 什么是灵魂绑定代币(SBT)?它与普通NFT有何不同,为什么不能转让?

    答案:灵魂绑定代币(SBT)是不可转让的数字凭证,用于构建链上身份体系。由Vitalik Buterin提出,SBT由可信机构发行并永久关联用户钱苞地址,代表个人资质与社会关系;与NFT不同,SBT强调身份归属而非资产所有权,其不可转让性确保身份真实、防止女巫攻击,并支持信誉积累,同时发行者可撤销以…

    2025年12月11日
    000
  • ICO是什么_为什么参与者需要评估项目代币发行的实际价值

    评估ICO项目需从团队背景、白皮书质量、市场需求、代币模型及代码安全五方面入手,首先确认团队真实性和经验,再分析白皮书的技术可行性与创新性,继而考察市场空间与竞争格局,接着审视代币分配机制与实用价值,最后验证代码开源情况与第三方审计结果,以全面识别项目风险。 Binance币安 欧易OKX ️ Hu…

    2025年12月11日
    000
  • 如何评估一个加密项目的创始团队?从四个维度进行背景调查

    评估加密项目创始团队需核查教育与职业背景、技术成果、社区影响力及法律合规记录,确保专业性与可信度。 评估加密项目创始团队需从多个维度进行背景调查,确保其专业性与可信度。 为了方便新手快速上手币圈交易并实时查看市场数据,可通过主流交易所币安(Binance)或欧易OKX注册账户并使用官方APP,可实时…

    2025年12月11日
    000
  • 以太坊和比特币的区别_主要差异在哪里

    比特币是去中心化电子现金,专注价值存储与转移;以太坊是可编程平台,支持智能合约与去中心化应用,二者在定位、技术与生态上根本不同。 以太坊和比特币:不仅仅是数字资产的差异 当人们谈论加密世界时,比特币和以太坊是两个无法绕开的名字。虽然它们常常被并列提及,但实际上,两者在设计哲学、核心功能和未来愿景上存…

    2025年12月11日
    000
  • Avalanche的互操作奇迹?子网架构重塑加密世界

    Avalanche子网通过自定义虚拟机、专属验证者节点和跨链通信协议实现高效互操作。1、子网由独立验证者集维护,支持自定义规则并与主网协同;2、开发者可选用EVM或WASM等虚拟机扩展应用功能;3、需至少五个验证者节点注册至P-Chain以保障去中心化安全;4、启用Teleporter协议实现无需中…

    2025年12月11日
    000
  • 香港虚拟货币app排行:十大可靠交易平台

    香港十大虚拟货币交易平台包括OSL、HashKey、Binance等,均以合规性与安全性为核心优势,其中OSL和HashKey获SFC牌照,支持零售及专业投资者交易主流币种;Binance、OKX、Bybit等则以高流动性、丰富币种及衍生品服务著称。 在香港选择一个安全可靠的虚拟货币交易平台至关重要…

    2025年12月11日
    000
  • 隐私币深度解析:Monero (XMR) vs. Zcash (ZEC),谁的技术更胜一筹?

    %ignore_a_1%通过环形签名、隐身地址和环形机密交易实现全面链上混淆,隐私强制默认且无需信任假设,技术成熟稳健;Zcash采用zk-SNARKs提供数学可证明的绝对隐私,支持选择性披露与合规审计,但早期依赖信任设置,存在理论安全风险。两者分别代表混淆式隐私与零知识证明隐私的典型路径。 币圈中…

    2025年12月11日
    000
  • 一文了解“应用链”和“通用公链”的架构选择与优劣

    应用链专为特定应用定制,具独立共识与高效执行,适合高性能需求;通用公链共享安全与生态,支持多应用部署,利于互操作与低成本启动。 在区块链架构设计中,应用链与通用公链是两种主流的技术路径,各自适用于不同的业务场景和技术需求。 为了方便新手快速上手币圈交易并实时查看市场数据,可通过主流交易所币安(Bin…

    2025年12月11日
    000
  • EMA指数移动平均线怎么用?它和MA普通均线有何区别及优劣?

    EMA因加权计算更灵敏,适合趋势跟踪;MA等权重较平滑,适用于震荡行情。1、EMA能快速反映价格变化,利于捕捉趋势拐点;2、MA在横盘中过滤杂波,减少误判。实战中常组合使用:方案一采用EMA12与EMA26金叉死叉信号判断买卖点;方案二通过EMA21、EMA55、EMA100%ignore_a_1%…

    2025年12月11日
    000
  • ERC-20和ERC-721代币标准有什么本质区别?一文看懂同质化与非同质化

    ERC-20是同质化代币标准,代币可互换、可分割,适用于稳定币和治理代币;ERC-721是非同质化代币标准,每枚代币唯一不可分,用于数字艺术、收藏品等独特资产。 ERC-20与ERC-721是以太坊上两种核心的代币标准,分别代表同质化和非同质化资产,其本质区别在于代币的可互换性与唯一性。 为了方便新…

    2025年12月11日
    000
  • 解读“公链”与“联盟链”:它们有什么区别?分别适用于哪些场景?

    公链开放透明,适合数字货币与去中心化治理;联盟链高效私密,适用于供应链金融、政务协同等需权限管理的场景。 主流货币交易所推荐: 欧易OKX: Binance币安: 火币Huobi: Gateio芝麻开门: 区块链技术主要分为公链和联盟链。公链向全球所有人开放,强调去中心化与透明;而联盟链则面向特定组…

    2025年12月11日
    000
  • 什么是分片(Sharding)技术?它将如何提升区块链的可扩展性?

    分片技术通过将区块链网络划分为多个子网络提升处理能力。1、各分片独立验证交易与状态,降低主链负担;2、状态分片分布存储数据,减少节点存储压力;3、交易分片并行处理提升吞吐量;4、网络分片结合随机分配与轮换机制增强安全性。 binance币安交易所 注册入口: APP下载: 欧易OKX交易所 注册入口…

    2025年12月11日
    000
  • 加密情报总动员?6大专业订阅源实时锁定热点

    数字资产领域需依赖专业订阅源获取实时情报。首先,通过链上数据分析平台监控大额交易与鲸鱼活动;其次,订阅项目方官方通讯以获取权威更新;再者,利用去中心化社交媒体如Warpcast追踪社区动态;同时,参考机构级市场简报分析宏观趋势与衍生品数据;此外,订阅安全预警服务以及时应对智能合约漏洞;最后,追踪全球…

    2025年12月11日
    000
  • 什么是“高位并排阳线”?它在上涨趋势中意味着什么?

    高位并排阳线是看涨持续形态,出现在上升趋势中,由两根开盘价相近且带跳空缺口的阳线组成,显示买方力量强劲、抛压较小,常被视为主力洗盘后继续上行信号,其跳空缺口形成关键支撑,若未回补可考虑买入;但若缺口被完全回补,则支撑转压力,需警惕趋势反转风险,及时止损或反向操作。 Binance币安 欧易OKX ️…

    2025年12月11日
    000
  • 解读Web3.0:它与Web2.0有何根本区别?普通人如何抓住2025年的新机遇?

    Web3.0通过区块链实现用户数据所有权和价值共创,以去中心化身份打破平台垄断,普通人可通过学习、参与DAO和贡献技能抓住机遇,2025年DeSo、GameFi与Metaverse融合及DePIN赛道值得关注。 Web3.0不仅是技术迭代,更是价值范式的革命。它基于区块链技术,颠覆了Web2.0的平…

    2025年12月11日
    000
  • 什么是DAO(去中心化自治组织)?未来公司都会变成DAO吗?

    DAO是一种基于区块链的去中心化组织,通过智能合约实现自动化运行、社区治理、资金共享和透明决策,与传统公司相比更具开放性和民主性,但并非所有企业都适用;未来更可能发展为DAO与传统结构融合的混合模式,推动组织协作向更公平方向演进。 DAO,即去中心化自治组织,是一种基于区块链技术的创新组织形式。它通…

    2025年12月11日
    000
  • 什么是“旗形整理”和“楔形整理”?如何利用这两种中继形态顺势交易?

    旗形与楔形是币圈趋势中继形态,旗形表现为平行通道内缩量整理,突破方向与前期趋势一致,可依旗杆高度测算目标位;楔形由同向收敛边线构成,上升楔形常出现在下跌过程,下降楔形多见于上升途中,突破后回踩支撑/阻力转换位为入场时机;两者均需放量突破确认,并结合MACD、斐波那契及多周期结构提高交易胜率。 bin…

    2025年12月11日
    000
  • Layer 2扩容方案全解析:Arbitrum vs. Optimism,谁是2025年以太坊的最佳搭档?

    以太坊layer 2赛道竞争激烈,arbitrum与optimism作为两大巨头,在技术、生态和未来规划上各有千秋。谁能成为2025年以太坊生态的最佳扩容伙伴,值得我们深入探讨。 技术核心与实现差异 1、欺诈证明机制是两者核心区别。Arbitrum采用多轮交互式欺诈证明,理论上更高效且成本更低,而O…

    2025年12月11日
    000

发表回复

登录后才能评论
关注微信