五个有前途的AI模型用于图像翻译

程序猿 • 2025年11月9日 22:48:21 • 用户投稿 • 阅读 0

图像到图像的翻译

根据Solanki、Nayyar和Naved在论文中提供的定义，图像到图像的翻译是将图像从一个域转换到另一个域的过程，其目标是学习输入图像和输出图像之间的映射。

换句话说，我们希望模型能够通过学习映射函数f将一张图像a转换成另一张图像b。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

有人可能会想，这些模型有什么用，它们在人工智能世界有什么关联。应用程序往往有很多，这不仅仅限于艺术或平面设计领域。例如，能够拍摄图像并将其转换为另一个图像来创建合成数据(如分割图像)，这对训练自动驾驶汽车模型非常有用。另一个经过测试的应用程序是地图设计，其中模型能够执行两种转换(卫星视图到地图，反之亦然)。图像翻转换型也可以应用于建筑，模型可以就如何完成未完成的项目提出建议。

图像转换最引人注目的应用之一是将简单的绘图转换为美丽的风景或绘画。

用于图像翻译的5种最有前途的AI模型

在过去几年中，已经开发出几种方法，通过利用生成模型来解决图像到图像转换的问题。最常用的方法基于以下体系结构：

生成对抗网络(GAN)变分自编码器(VAE)扩散模型(DVAE)Transformers

Pix2Pix

Pix2Pix是一个基于条件GAN的模型。这意味着它的架构是由Generator网络(G)和Discriminator (D)组成的。这两个网络都是在对抗性游戏中训练的，其中G的目标是生成与数据集相似的新图像，而D必须决定图像是生成的(假)还是来自数据集(真)。

Pix2Pix和其他GAN模型之间的主要区别是:(1)第一个Generator将图像作为输入来启动生成过程，而普通GAN使用随机噪声;(2)Pix2Pix是一个完全监督模型，这意味着数据集由来自两个域的成对图像组成。

论文中描述的体系结构是由一个用于生成器的U-Net和用于Discriminator的Markovian Discriminator或Patch Discriminator定义的:

U-Net:由两个模块组成（下采样和上采样）。使用卷积层将输入图像简化为一组更小的图像(称为特征映射)，然后通过转置卷积进行上采样，直到达到原始的输入维度。下采样和上采样之间存在skip connections。Patch Discriminator:卷积网络，它的输出是一个矩阵，其中每个元素都是图像的一个部分(patch)的评估结果。它包括生成的图像和真实图像之间的L1距离，以确保生成器学会在给定输入图像的情况下映射正确的函数。也称为马尔可夫，因为它依赖于来自不同patch的像素是独立的假设。

Pix2Pix结果

无监督图像到图像翻译（UNIT）

在Pix2Pix中，训练过程是完全监督的(即我们需要成对的图像输入)。UNIT方法的目的是学习将图像A映射到图像B的函数，而不需要训练两个成对的图像。

该模型从假设两个域(A和B)共享一个共同的潜在空间(Z)开始。直观地说，我们可以将这个潜在空间视为图像域A和B之间的中间阶段。因此，使用从绘画到图像的例子，我们可以使用相同的潜在空间向后生成绘画图像或向前看到令人惊叹的图像(见图X)。

图中：(a)共享潜空间。(b)UNIT架构:X1是一幅图画，X2是一幅美丽的风景;E1, E2是编码器，从两个域(绘图和风景)提取图像，并将它们映射到共享潜在空间Z;G1, G2发生器，D1, D2判别器。虚线表示网络之间的共享层。

UNIT模型是在一对VAE-GAN架构下开发的(见上图)，其中编码器的最后一层(E1, E2)和生成器的第一层(G1, G2)是共享的。

UNIT结果

Palette

Palette是加拿大谷歌研究小组开发的条件扩散模型。该模型经过训练，可执行与图像转换相关的4项不同任务，从而获得高质量的结果：

(i)着色:为灰度图像添加颜色

(ii)Inpainting:用逼真的内容填充用户指定的图像区域

(iii)Uncropping:放大图像帧

(iv)JPEG恢复:恢复损坏的JPEG图像

有道翻译AI助手

有道翻译提供即时免费的中文、英语、日语、韩语、法语、德语、俄语、西班牙语、葡萄牙语、越南语、印尼语、意大利语、荷兰语、泰语全文翻译、网页翻译、文档翻译、PDF翻

63 查看详情

在论文中，作者探讨了多任务通用模型和多个专门模型之间的区别，两者都经过一百万次迭代训练。该模型的体系结构基于Dhariwal和Nichol 2021的类条件U-Net模型，使用1024个批次大小的图像进行1M的训练步骤。将噪声计划作为超参数进行预处理和调整，使用不同的计划进行训练和预测。

Palette结果

Vision Transformers (ViT)

请注意，尽管以下两个模型并不是专门为图像转换设计的，但它们在将诸如transformers等功能强大的模型引入计算机视觉领域方面迈出了明显的一步。

Vision Transformers(ViT)是对Transformers架构的修改（Vaswani等人，2017年），是为图像分类而开发的。该模型将图像作为输入，并输出属于每个已定义类的概率。

主要问题在于Transformers被设计成以一维序列作为输入，而不是二维矩阵。为了进行排序，作者建议将图像分割为小块，将图像视为序列(或NLP中的句子)，小块视为标记(或单词)。

简单总结一下，我们可以将整个过程分为3个阶段:

1)嵌入:将小块拆分并flatten→应用线性变换→添加类标记(此标记将作为分类时考虑的图像摘要)→位置嵌入

2)Transformer-Encoder块:将嵌入的patches放入一系列变transformer encoder块中。注意力机制会学习关注图像的哪些部分。

3)分类MLP头:将类令牌通过MLP头，该MLP头输出图像属于每个类的最终概率。

使用ViT的优点:排列不变。与CNN相比，Transformer不受图像中的平移(元素位置的变化)的影响。

缺点:需要大量标记数据进行训练(至少14M的图像)

TransGAN

TransGAN是一个基于transform的GAN模型，设计用于图像生成，不使用任何卷积层。相反，生成器和鉴别器是由一系列由上采样和下采样块连接的Transformer组成的。

生成器的正向过程取一个一维数组的随机噪声样本，并将其通过MLP。直观地说，我们可以把数组想象成一个句子，像素的值想象成单词(请注意，一个由64个元素组成的数组可以重塑为1个通道的8✕8的图像)接下来，作者应用了一系列Transformer块，每个块后面都有一个上采样层，使数组(图像)的大小增加一倍。

TransGAN的一个关键特征是Grid-self – attention。当达到高维图像(即非常长的数组32✕32 = 1024)时，应用transformer可能导致自注意力机制的爆炸性成本，因为您需要将1024数组的每个像素与所有255个可能的像素进行比较(RGB维度)。因此，网格自注意力不是计算给定标记和所有其他标记之间的对应关系，而是将全维度特征映射划分为几个不重叠的网格，并且在每个局部网格中计算标记交互。

判别器体系结构与前面引用的ViT非常相似。

不同数据集上的TransGAN结果

以上就是五个有前途的AI模型用于图像翻译的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/556432.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

如何用印象笔记搭建个人知识管理系统_印象笔记知识管理体系构建步骤

上一篇 2025年11月9日 22:48:14

OPPO灵动岛怎么用？手机灵动岛设置教程与入口

下一篇 2025年11月9日 22:48:23

好文分享

html搜索框如何跳转_实现HTML搜索框跳转搜索结果【结果】

HTML搜索框跳转失败多因表单action或参数错误，可通过五种方法解决：一、百度用form提交至https://www.baidu.com/s?q=关键词；二、Google类似，action为https://www.google.com/search；三、JavaScript拼接必应URL并loc…

程序猿
2025年12月23日
2000
好文分享

从OpenAI API JSON响应中高效提取生成文本内容

本教程详细指导开发者如何从openai api返回的json格式响应中准确提取生成的文本。通过利用`json.parse()`方法解析响应字符串，并访问`choices[0].text`属性，可以安全、高效地获取核心文本内容，从而避免直接字符串操作的潜在问题，确保api数据处理的健壮性。 OpenA…

程序猿
2025年12月23日
1000
好文分享

HTML语义化未来趋势有哪些_HTML语义化在Web发展中的趋势与展望

HTML语义化正朝着智能、高效、包容发展，深度融合结构化数据与ARIA属性，提升机器理解；2. 组件化趋势推动可复用语义结构普及，Web Components实现自定义语义标签；3. 语义化助力性能优化与可访问性，支持懒加载与内容优先级划分；4. AI工具将自动生成语义化代码并辅助检测，降低实践门槛…

程序猿
2025年12月23日
0000
好文分享

HTML数据如何实现数据智能 HTML数据智能分析的技术架构

实现HTML数据智能分析需构建包含采集、解析、存储、分析与可视化的闭环系统，首先通过爬虫技术获取网页数据并进行清洗标准化，接着利用DOM树分析与NLP技术提取结构化信息，随后将数据存入合适数据库或数据仓库并建立元数据管理机制，进而应用AI模型开展分类、情感分析、趋势预测与知识图谱构建等智能分析，最终…

程序猿
2025年12月23日
0000
好文分享

HTML5 section怎么用_HTML5内容分区标签应用场景说明

在HTML5中，标签用于定义文档中具有明确主题的独立内容区块，需包含标题以体现其结构性与语义性，常用于文章章节、产品模块等场景，区别于无语义的和可独立分发的。在HTML5中，section 标签用于定义文档中的一个独立内容区块。它不是简单的容器，而是有语义的结构化标签，表示文档中一个主题性的分区，…

程序猿
2025年12月23日
0000
好文分享

htm算法前景如何_分析HTM算法应用前景

HTM算法在实时异常检测、预测性维护等时序数据场景中具备应用价值，其无需大量标注数据的特性适合工业监控、网络安防等领域；但受限于生态薄弱、性能不及主流模型及工程实现难度，短期内难以成为主流，更可能作为边缘计算或AI系统补充技术，在特定专业领域持续发展。 HTM（Hierarchical Tempor…

程序猿
2025年12月23日
0000
好文分享

HTMLPagelinks怎么优化_分页链接SEO优化技巧

答案是：分页SEO的核心在于通过“查看全部”页面集中权重或构建清晰的内部链接结构来引导搜索引擎理解页面关系。应优先创建“查看全部”页面整合内容，并设置canonical标签指向该页，同时确保分页导航为可抓取的HTML链接，包含前后页、首尾页及附近页码链接，以提升抓取效率、传递权重并改善用户体验，从而…

程序猿
2025年12月22日
0000
好文分享

HTML结构化数据怎么添加_Schema标记添加教程

Schema标记通过结构化数据帮助搜索引擎理解网页内容，提升搜索结果展示效果，如添加星级评分、价格等富文本信息。使用JSON-LD或Microdata格式将符合Schema.org标准的类型（如Article、Product）嵌入HTML中，可增强SEO，需通过Google Rich Results…

程序猿
2025年12月22日
0000
好文分享

如何实现自定义提示

掌握自定义提示需构建迭代工作流，通过明确目标、设定角色、提供上下文、结构化输出、示例引导、迭代优化、负面提示和链式思考，实现AI输出的精准控制与高效协同。实现自定义提示，核心在于理解与AI模型交互的本质，并将其从“提问”升级为“引导”。它不是简单的抛出问题，而是通过精心设计的语言结构、上下文信息、…

程序猿
2025年12月22日
0000
好文分享

javascript的机器学习如何入门_有哪些可用的JavaScript库

JavaScript适合浏览器端轻量推理与教学，不宜训练大模型；推荐从线性回归、KNN等简单任务入手，优先掌握张量操作、模型流程及Chrome调试技巧。 JavaScript 做机器学习确实可行，但得明确一点：它不适合训练大型模型，更适合在浏览器端做轻量推理、数据预处理、教学演示或与 Web 应用集…

程序猿
2025年12月21日
0000
好文分享

JavaScript数学计算与数值分析库

math.js适合日常复杂计算，numeric.js专精数值分析，simple-statistics用于统计分析，TensorFlow.js适用于AI与大规模数值运算。 JavaScript虽然原生支持基本的数学运算，但在处理复杂数学计算、数值分析或科学计算时，依赖第三方库能大幅提升开发效率和计算精…

程序猿
2025年12月21日
0000
好文分享

JavaScript机器学习库应用

答案：JavaScript机器学习库适用于多种场景。TensorFlow.js支持浏览器端图像分类与姿态识别，利用WebGL加速；ML5.js封装简洁，适合初学者快速调用预训练模型；Synaptic.js灵活构建自定义神经网络；Brain.js专注数值预测任务。选择依据为：功能全面选TensorFl…

程序猿
2025年12月21日
1000
好文分享

JavaScript机器学习与人工智能库应用

JavaScript在AI领域应用扩展，依托TensorFlow.js实现浏览器内模型推理与训练，利用WebGL加速；ML5.js提供高层接口，简化图像识别、风格迁移等功能调用；Brain.js支持轻量级神经网络开发，适用于前端智能场景如实时检测、自动补全等，虽性能不及Python，但在交互式轻量应…

程序猿
2025年12月20日
1000
好文分享

LangChain HNSWLib 向量存储机制与数据持久化指南

本文详细解析langchain中hnswlib向量存储的工作原理，明确其作为内存存储的特性，指出数据实际存储在项目部署的服务器上，而非langchain官方服务器。同时，文章将指导如何通过save_local()方法将内存中的向量数据持久化到本地文件，确保数据安全与可靠性，并探讨在实际应用中的注意事…

程序猿
2025年12月20日
1000
好文分享

如何用机器学习库（如TensorFlow.js）在浏览器中训练模型？

完全可行，适合轻量级任务与隐私保护场景。通过CDN引入TensorFlow.js后，使用tf.sequential()构建模型，编译时配置优化器、损失函数等。将数据转为张量并归一化，调用model.fit()训练，支持回调监控。训练后可保存至本地或导出文件，后续加载进行预测。虽计算力受限，但合理设计…

程序猿
2025年12月20日
0000
好文分享

如何利用 JavaScript 实现一个简单的机器学习模型进行预测或分类？

答案是JavaScript可实现简单机器学习模型。通过手动实现线性回归和kNN算法，可在前端完成基础预测与分类任务；结合TensorFlow.js则能训练神经网络，支持更复杂场景，适合轻量级应用开发。用 JavaScript 实现一个简单的机器学习模型是完全可行的，尤其适合初学者理解基本原理或在前…

程序猿
2025年12月20日
0000
好文分享

使用LINE Bot与OpenAI API发送文本和贴图的完整教程

本文详细介绍了如何在LINE Bot中集成OpenAI API生成文本回复，并在此基础上发送LINE贴图。核心挑战在于LINE Messaging API的replyToken通常只能使用一次，导致连续发送文本和贴图时出现400错误。解决方案是利用API支持一次性发送多条消息的特性，将文本和贴图消息…

程序猿
2025年12月20日
0000
好文分享

如何用WebGPU加速浏览器端的机器学习推理？

WebGPU通过提供现代、低开销的GPU计算能力，显著提升了浏览器端机器学习推理的性能。相比为图形渲染设计的WebGL，WebGPU原生支持通用计算，具备更低API开销、更高效的内存管理和更强的并行处理能力，能直接执行计算着色器，避免WebGL将数据编码到纹理等间接操作。其核心优势包括更高的执行效率…

程序猿
2025年12月20日
0000
好文分享

JS 机器学习入门实践 – 使用 TensorFlow.js 实现基础神经网络

使用TensorFlow.js可在浏览器或Node.js中用JavaScript实现基础神经网络，核心步骤包括：引入库、准备数据（如张量形式的输入输出）、定义模型架构（如序贯模型和全连接层）、编译模型（指定优化器和损失函数）、训练模型（设置epochs并监控损失）以及进行预测。以线性回归y=2x+1…

程序猿
2025年12月20日
0000
好文分享

如何用WebNN API在浏览器中运行神经网络模型？

WebNN API通过提供标准化接口直接调用设备AI硬件，实现浏览器内高性能、低延迟的本地AI推理。它需将预训练模型转换为ML计算图，经编译后在支持的硬件上执行，相比TF.js等方案减少中间层开销，提升效率与隐私性。当前面临模型格式兼容性、浏览器与硬件支持碎片化、调试工具不足及内存管理挑战。未来将推…

程序猿
2025年12月20日
0000