生成式AI的五大模型:VAEs、GANs、Diffusion、Transformers、NeRFs

为任务选择正确的GenAI模型需要了解每个模型使用的技术及其特定能力,下面请了解VAEs、GANs、Diffusion、Transformers和NerFs五大GenAI模型。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

生成式AI的五大模型:VAEs、GANs、Diffusion、Transformers、NeRFs

以前,大多数人工智能模型都专注于更好地处理、分析和解释数据。直到最近,在所谓的生成神经网络模型方面的突破带来了一系列用于创建各种内容的新工具,从照片和绘画到诗歌、代码、电影剧本和电影。

顶级 AI 生成模型概述

在2010年代中期,研究人员发现了生成人工智能模型的新前景。当时,他们开发了变分自编码器(VAEs)、生成对抗网络(GAN)和扩散模型(Diffusion)。2017年问世的转换器(Transformers)是一种突破性的神经网络,能够大规模分析大型数据集,以自动创建大型语言模型(LLM)。到了2020年,研究人员引入了神经辐射场(NeRF)技术,这种技术可以从三维图像生成二维内容

这些生成模型的快速发展是一项正在进行的工作,因为研究人员的调整通常会带来巨大的进步,并且显著的进展并没有减缓。怀特教授在加州大学伯克利分校表示:“模型架构在不断变化,将继续开发新的模型架构。”

每个模型都有其特殊的能力,目前,扩散模型(Diffusion)在图像和视频合成领域表现异常出色,转换器模型(Transformers)在文本领域表现良好,GAN 擅长用合理的合成样本来扩充小数据集。但是选择最佳模型始终取决于特定的用例。

所有的模型都不相同,人工智能研究人员和ML(机器学习)工程师必须为适当的用例和所需的性能选择合适的一个,并考虑模型在计算、内存和资本方面可能存在的限制。

特别是转换器模型对生成模型的最新进展和激动产生了推动作用。UST数字化转型咨询公司的首席人工智能架构师Adnan Masood表示:“人工智能模型的最新突破来自于对大量数据进行预训练,并使用自我监督学习来训练没有明确标签的模型。”

例如,OpenAI的生成式预训练转换器系列模型是该类别中最大、最强大的模型之一。其中,GPT-3模型就包含了175亿个参数

顶级生成式 AI 模型的主要应用

Masood解释说,顶级生成AI模型使用各种不同的技术和方法来生成全新的数据。这些模型的主要功能和用途包括:

VAE使用编码器-解码器架构来生成新数据,通常用于图像和视频生成,例如生成用于隐私保护的合成人脸。GAN 使用生成器和鉴别器来生成新数据,通常用于视频游戏开发中以创建逼真的游戏角色。Diffusion添加然后消除噪声以生成具有高细节水平的高质量图像,从而创建近乎逼真的自然场景图像。Transformer可以有效地并行处理顺序数据,以进行机器翻译、文本摘要和图像创建。NeRF提供了一种使用神经表示的3D场景重建的新方法。

下面让我们更详细地介绍每种方法。

VAE

VAE是在2014年开发的,其目的是利用神经网络更有效地对数据进行编码

Sisense的AI负责人Yael Lev表示,人工智能分析平台VAE学会了更有效地表达信息。VAE由两部分组成:一个编码器(encoder)将数据压缩,另一个解码器(decoder)将数据恢复到原始形式。它们非常适合从较小的信息中生成新的实例,修复嘈杂的图像或数据,检测数据中的异常内容并填充缺失的信息

然而,根据UST的Masood所说,变分自编码器(VAE)也倾向于生成模糊或低质量的图像。另外一个问题是,用于捕获数据结构的低维潜在空间错综复杂且具有挑战性。这些缺点可能会限制VAE在需要高质量图像或对潜在空间有清晰理解的应用中的有效性。VAE的下一次迭代可能会侧重于提高生成数据的质量、加快训练速度并探索其在序列数据方面的适用性

生成式AI的五大模型:VAEs、GANs、Diffusion、Transformers、NeRFs

GANs

GANs是在2014年开发出来的,它被用于生成逼真的面部和打印数字。GAN将生成真实内容的神经网络与检测虚假内容的神经网络对立起来。普华永道全球人工智能负责人Anand Rao说:“逐步地,这两个网络融合在一起,产生了与原始数据无法区分的生成图像。”

GAN 通常用于图像生成、图像编辑、超分辨率、数据增强、风格传输、音乐生成和深度伪造创建。GAN的一个问题是,它们可能会遭受模式崩溃,其中生成器产生有限和重复的输出,使它们难以训练。Masood说,下一代GAN将专注于提高训练过程的稳定性和融合性,将其适用性扩展到其他领域,并开发更有效的评估指标。GAN也很难优化和稳定,并且对生成的样本没有明确的控制。

生成式AI的五大模型:VAEs、GANs、Diffusion、Transformers、NeRFs

Diffusion

扩散模型由斯坦福大学的一组研究人员于2015年开发,用于模拟和反转熵和噪声。扩散技术提供了一种模拟现象的方法,例如盐等物质如何扩散到液体中,然后逆转它,此相同模型还有助于从空白图像生成新内容。

扩散模型是当前图像生成的首选,它们是流行的图像生成服务的基本模型,例如Dall-E 2,Stable Diffusion,Midjourney和Imagen。它们还用于管道中生成语音、视频和 3D 内容。此外,扩散技术还可用于数据插补,其中预测和生成缺失数据

许多应用将扩散模型与LLM配对,用于文本到图像或文本到视频生成。例如,Stable Diffusion 2 使用对比语言-图像预训练模型作为文本编码器,它还添加了用于深度和升级的模型。

Masood预测,对稳定扩散等模型的进一步改进可能侧重于改进负面提示,增强以特定艺术家风格生成图像的能力,并改善名人图像。

Transformers

转换器模型是由Google Brain的一个团队在2017年开发的,旨在改善语言翻译。这些模型非常适合以不同的顺序处理信息,并且能够并行处理数据,同时还能利用未标记的数据来扩展到大型模型

重写后的内容:这些技术可以应用于文本摘要、聊天机器人、推荐引擎、语言翻译、知识库、个性化推荐(通过偏好模型)、情感分析和命名实体识别,用于识别人物、地点和事物。此外,它们还可以用于语音识别,如OpenAI的耳语技术,以及视频和图像中的对象检测、图像字幕、文本分类和对话生成等领域

尽管Transformers具有多功能性,但它们确实存在局限性。它们的训练成本可能很高,并且需要大型数据集。由此产生的模型也相当大,这使得识别偏差或不准确结果的来源变得具有挑战性。马苏德说:“它们的复杂性也使得解释其内部运作变得困难,阻碍了它们的可解释性和透明度。

生成式AI的五大模型:VAEs、GANs、Diffusion、Transformers、NeRFsTransformer模型架构

NeRF

NeRF 于 2020 年开发,用于将光场的 3D 表示捕获到神经网络中,第一次实施非常缓慢,需要几天时间才能捕获第一个3D图像。

然而,在2022年,英伟达公司的研究人员发现了一种在大约30秒内生成新模型的方法。这些模型可以以几兆字节为单位表示3D对象,并具有相当的质量,而其他技术可能需要占用千兆字节。这些模型有望为捕捉和生成元宇宙中的3D对象带来更有效的技术。英伟达的研究总监亚历山大·凯勒(Alexander Keller)表示,NeRFs对于3D图形的重要性最终可能与数码相机对现代摄影的重要性一样重要

Masood表示,NeRF在机器人、城市测绘、自主导航和虚拟现实应用方面显示出巨大的潜力。然而,NERF的计算成本仍然很高,将多个NERF组合成更大的场景也很具有挑战性,今天NeRF唯一可行的用例是将图像转换为3D对象或场景。尽管存在这些限制,Masood预测NeRF将在基本图像处理任务中找到新的角色,例如去噪,去模糊,上采样,压缩和图像编辑

GenAI生态系统进行时

重要的是要注意,这些模型正在进行中,研究人员正在寻求改进单个模型以及将它们与其他模型和处理技术相结合的方法。Lev预测,生成模型将变得更加通用,应用程序将扩展到传统领域之外,用户还可以更有效地指导AI模型,并了解它们如何更好地工作。

在多模态模型上也有工作正在进行中,这些模型使用检索方法来调用针对特定任务优化的模型库。他还希望生成模型能够开发其他功能,例如进行API调用和使用外部工具,例如,根据公司的呼叫中心知识微调的LLM将提供问题的答案并执行故障排除,例如重置客户调制解调器或在问题解决时发送电子邮件。

实际上,未来可能会有更高效的东西取代今天流行的模型架构。怀特表示:“当新架构出现时,Diffusion和Transformer模型可能不再有用。”我们从Diffusion的引入中看到了这一点,因为它们对自然语言应用的方法并不利于长短期记忆算法和递归神经网络(RNN)

有人预测,生成AI生态系统将演变为三层模型。基础层是一系列基于文本、图像、语音和代码的基础模型,这些模型会摄取大量数据,并基于大型深度学习模型构建,同时结合了人类的判断。接下来,特定于行业和功能的领域模型将改善医疗保健、法律或其他类型的数据处理。在顶层,公司将使用专有数据和主题专业知识构建专有模型。这三个层将颠覆团队开发模型的方式,并迎来模型即服务的新时代

如何选择生成式 AI 模型:首要注意事项

根据Sisense的Lev的说法,在模型之间进行选择时的首要考虑因素包括以下内容:

您要解决的问题。选择已知适用于您的特定任务的模型。例如,将转换器用于语言任务,将 NeRF 用于 3D 场景。

数据的数量和质量。Diffusion需要大量良好的数据才能正常工作,而VAE则在数据较少的情况下工作得更好。

结果的质量。GAN 更适合清晰和详细的图像,而 VAE 更适合更平滑的结果。

训练模型的难易程度。GAN可能很难训练,而VAE和Diffusion更容易。

计算资源要求。NeRF和Diffusion都需要大量的计算机能力才能正常工作。

需要控制和理解。如果您想更好地控制结果或更好地了解模型的工作原理,VAE 可能比 GAN 更好。

以上就是生成式AI的五大模型:VAEs、GANs、Diffusion、Transformers、NeRFs的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/808612.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月26日 21:32:05
下一篇 2025年11月26日 21:32:29

相关推荐

  • 加密货币中的联合曲线是什么?它是如何运作的?一文详解

    基于区块链的程序和平台正在不断寻求更加去中心化和自动化的方法。目前,许多协议生态系统仍然需要交易所等外部实体来执行部分功能。通过采用智能合约,区块链已经能够将许多功能转移到更加自动化和去中心化的领域。此外,数学算法的广泛使用使得更广泛的交易可以在没有任何人为或外部干扰的情况下进行。这一进步使得区块链…

    2025年12月9日 好文分享
    000
  • 什么是Polygon(MATIC)币?能达到1美元吗?MATIC价格预测2026–2050

    polygon(原名 matic)是一个 layer 2 平台,旨在扩展以太坊区块链的功能并增强其性能。您对polygon 的价格预测感兴趣吗?大多数人的答案是肯定的。因此,闲话少叙,本文将探讨 polygon 对 2025 年、2026 年和 2030 年的最新价格预测,以及基于基本面分析和 ma…

    2025年12月9日 好文分享
    000
  • 虚拟货币指标有哪些?7大指标帮你看懂加密市场

    在加密货币市场中,掌握关键指标能够帮助投资者更准确地判断市场趋势和风险。本文将为新手和有经验的交易者介绍7大虚拟货币市场指标,助力看懂市场动向。 1. 市值(Market Cap) 市值是衡量一个加密货币规模的重要指标,计算公式为:流通供应量 × 当前价格。市值越高,说明市场认可度越高,流动性也通常…

    2025年12月9日
    000
  • 以太坊在第三季度表现突出,成为加密资产复苏的领跑者

    2025年第三季度,以太坊(ETH)在加密资产市场中表现抢眼,凭借强劲的链上活动和机构资金流入,成为市场复苏的领跑者。ETH的价格稳步上扬,同时网络活跃度与DeFi应用使用量持续增长,显示出生态系统的持续扩张能力。 以太坊投资渠道推荐 新手投资者可通过以下主流交易平台购买以太坊: 币安(Binanc…

    2025年12月9日
    000
  • 虚拟币排行榜20名最新2025年 10月数字货币前20榜单

    binance币安交易所 注册入口: APP下载: 欧易OKX交易所 注册入口: APP下载: 火币交易所: 注册入口: APP下载: 2025年10月,数字货币市场预计将呈现更加多元和成熟的格局。本榜单基于当前技术演进、生态系统建设、市场应用和社区共识进行前瞻性预测,旨在揭示那些可能在未来市场中占…

    2025年12月9日
    000
  • 什么是跨链桥?如何将资产从一条链转移到另一条链?

    binance币安交易所 注册入口: APP下载: 欧易OKX交易所 注册入口: APP下载: 火币交易所: 注册入口: APP下载: 跨链桥是一种连接独立区块链的“桥梁”,它允许用户将资产或数据从一个区块链网络(如以太坊)安全地转移到另一个网络(如Solana),解决了不同链之间的孤岛问题,极大地…

    2025年12月9日
    000
  • 什么是“创世区块”?它对比特币有什么特殊的意义?

    binance币安交易所 注册入口: APP下载: 欧易OKX交易所 注册入口: APP下载: 火币交易所: 注册入口: APP下载: 创世区块,又称区块0,是比特币区块链中第一个被创建的区块。它由中本聪在2009年1月3日创建,是整个比特币系统的基石,所有后续区块都直接或间接地链接到它,犹如一部史…

    2025年12月9日
    000
  • 中心化交易所(CEX)与去中心化交易所(DEX)对比

    在数字资产交易的广阔天地中,中心化交易所(cex)和去中心化交易所(dex)是两种主流的平台类型,它们各自拥有独特的优势和局限性。理解两者的核心差异,对于投资者来说至关重要,因为它直接影响到交易的安全性、便捷性以及所能提供的资产种类。本文将深入探讨cex和dex的运作机制、特点以及它们在实际应用中的…

    好文分享 2025年12月9日
    000
  • 美联储10月降息概率达99%,加密市场迎来政策关键周

    美联储降息预期达99%叠加SEC批准加密ETP新规,美元走弱与监管明确化推动资产重配,黄金、美股成长板块及加密货币迎来利好,机构加速布局数字资产,市场进入流动性宽松与制度创新共振的新阶段。 2025年10月的第三周,全球金融市场正屏息凝视,等待一个几乎确定无疑的货币事件——美联储的再次降息。根据CM…

    2025年12月9日
    000
  • 如何查看比特币交易记录_查询比特币交易记录的步骤

    binance币安交易所 注册入口: APP下载: 欧易OKX交易所 注册入口: APP下载: 火币交易所: 注册入口: APP下载: 查询比特币的交易记录是了解资金流向和确认交易状态的关键一步。由于其网络的公开透明特性,任何人都可以通过使用区块链浏览器轻松追踪任何一笔交易的详细信息。 一、准备查询…

    2025年12月9日
    000
  • 交易所:加密货币交易的核心平台

    在数字经济浪潮中,加密货币以其去中心化、透明可追溯的特性,正逐步重塑全球金融格局。作为连接用户与加密世界的桥梁,加密货币交易所扮演着至关重要的角色。它们不仅是数字资产买卖流通的场所,更是价值发现、风险管理、生态建设的核心驱动力。面对琳琅满目的交易所,如何选择一个安全可靠、功能强大、服务优质的平台,成…

    好文分享 2025年12月9日
    000
  • 2025年10月底可能暴涨的币有哪些

    评估潜在暴涨币种的关键因素 在探讨2025年10月底可能暴涨的币种之前,理解评估加密货币的关键因素至关重要。这些因素帮助我们筛选出那些具有真正潜力的项目,而不是盲目追逐短期热点。 技术创新与应用场景: 一个具有颠覆性技术和广泛应用场景的项目,其成功的可能性更大。例如,解决了现有区块链痛点(如扩容、隐…

    好文分享 2025年12月9日
    000
  • 比特币到底是谁发明的?中本聪与区块链起源

    Binance币安 欧易OKX ️ Huobi火币️ 比特币的发明者是中本聪(Satoshi Nakamoto),这是一个化名,真实身份至今未知。2008年11月1日,中本聪在互联网上发表了一篇题为《比特币:一种点对点的电子现金系统》的白皮书,系统性地阐述了比特币的运行机制。这篇论文不仅提出了比特币…

    2025年12月9日
    000
  • 币安Alpha10月20日上线项目SVSA介绍

    Binance币安 欧易OKX ️ Huobi火币️ SVSA 是 Kaia 生态的重点游戏项目,估值高达五千万,背靠日韩双巨头,预计16:00上线 Alpha,上线平台不多,大概率会走单机拉盘路线。 项目简介:SVSA 是一款由 KaiaChain 支持、登陆 LINE DApp 平台的 Web3…

    2025年12月9日
    100
  • MEME币、AI币、GameFi项目怎么选?

    Binance币安 欧易OKX ️ Huobi火币️ 选什么类型的币,其实取决于你自己的目标和风险偏好。MEME币、AI币、GameFi项目各有特点,不能一概而论哪个最好,关键看你怎么理解和参与。 MEME币:情绪驱动,快进快出 MEME币的核心不是技术或应用,而是共识和热度。它的涨跌往往跟社交媒体…

    2025年12月9日
    100
  • 彭博社特稿:币安(BINANCE)劲敌,一文读懂 Hyperliquid 如何成功抢占市场份额

    由少数工程师团队打造的匿名去中心化交易所hyperliquid,在短短两年间已吸引重量级投资者并实现千亿级交易量。该平台专注于永续合约交易,永续合约是一种无到期日的合约,占据加密货币投机市场主导地位,月交易量超6万亿美元。 Binance币安 欧易OKX ️ Huobi火币️ 虽与行业龙头币安规模悬…

    2025年12月9日
    000
  • 币安劲敌: Hyperliquid 如何成功抢占市场份额,一文详解

    由少数工程师团队打造的匿名去中心化交易所hyperliquid,在短短两年间已吸引重量级投资者并实现千亿级交易量。该平台专注于永续合约交易,永续合约是一种无到期日的合约,占据加密货币投机市场主导地位,月交易量超6万亿美元。 Binance币安 欧易OKX ️ Huobi火币️ 币安劲敌: Hyper…

    2025年12月9日
    000
  • 买币后要不要卖?现货持仓心态与策略分享

    Binance币安 欧易OKX ️ Huobi火币️ 买了币之后当然要卖,关键是怎么卖、什么时候卖。很多人只想着“抄底”,却没想好“退出”,结果牛市赚的利润又全吐回去,甚至变盈为亏。真正的交易闭环,是买和卖同样重要。 别信“永远持有”,盈利后卖出才是成熟心态 市场里流传着“HODL”文化,但现实是:…

    2025年12月9日
    000
  • 2025年代币回购详细汇总:总额超14亿美元 前10项目占92%

    Binance币安 欧易OKX ️ Huobi火币️ 2025 年哪些代币的回购规模最大?Coingecko 近期汇总了各项目代币回购的数据,列出了按美元价值计算,28 种代币回购支出排名。以下为内容详情。 Hyperliquid 是今年迄今为止回购规模最大的代币,其援助基金迄今已花费超过 6.44…

    2025年12月9日
    000
  • 柴犬币(SHIB)是什么?SHIB未来前景、价格预测及购买方法

    shiba inu coin(shib)是一种基于以太坊的去中心化加密货币,由匿名开发者“ryoshi”于 2020 年 8 月创建。 Binance币安 欧易OKX ️ Huobi火币️ 柴犬币(SHIB)于2020年8月以1 SHIB约合0.00000000051美元(51亿分之一美元)的超低价…

    2025年12月9日 好文分享
    000

发表回复

登录后才能评论
关注微信