Transformer技术原理综述

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Transformer技术原理综述

1、前言

最近,AIGC(AI-Generated Content,人工智能生成内容)发展迅速,不仅被消费者追捧,而且备受技术和产业界关注。2022年9月23日,红杉美国发表文章《生成式AI:一个创造性的新世界》,认为 AIGC会代表新一轮范式转移的开始。2022年10月,Stability AI发布开源模型Stable Diffusion,可以根据用户输入的文字描述(称为提示词,prompts)自动生成图像,即文生图(Text-to-Image). Stable Diffusion、DALL-E 2、Midjourney、文心一格等可以生成图片的AIGC模型引爆了AI作画领域,AI作画风行一时,标志人工智能向艺术领域渗透。下图展示了由百度“文心一格”平台创作的“未来机甲”主题作品。

Transformer技术原理综述

图1 由百度“文心一格”平台创作的AI画作

AIGC领域的迅猛发展,离不开深度神经网络的进步。具体地说,是Transform模型的出现,赋予了神经网络更加强大的全局计算能力,减少了网络训练耗时,提高了网络模型的表现能力。当前表现较为优秀的AIGC领域模型,其技术底层架构中均包含Attention和 Transform技术。

2、发展历史

2.1 深度神经网络

以深度神经网络为代表的信息技术的发展,推动了人工智能领域的进步与拓展。2006年,Hinton等人利用单层的RBM自编码预训练使得深层的神经网络训练得以实现;2012年,Hinton和Alex Krizhevsky设计的AlexNet神经网络模型在ImageNet竞赛中实现图像识别分类,成为新一轮人工智能发展的起点。当前流行的深度神经网络是仿照生物神经网络所提出的概念。在生物神经网络中,生物神经元层层传递接收到的信息,多个神经元信息汇总得到最终的结果。使用类比生物神经单元设计的逻辑神经单元构建的数学模型被称为人工神经网络。在人工神经网络中,逻辑神经单元被用来探索输入数据和输出数据间的隐藏关系,当数据量较小时,浅层的神经网络就可以满足一些任务的要求,然而,随着数据规模的不断扩大,深度神经网络开始显示出其得天独厚的优势。

2.2 注意力机制

注意力机制(Attention Mechanism)由Bengio团队于2014年提出并在近年广泛的应用在深度学习中的各个领域,例如在计算机视觉方向用于捕捉图像上的感受野,或者NLP中用于定位关键token或者特征。大量实验证明,添加了注意力机制的模型在图像分类、分割、追踪、增强以及自然语言识别、理解、问答、翻译中均取得显著的效果提升。

注意力机制仿照视觉注意力机制而来。视觉注意力机制是人类大脑的一种天生的能力。当我们看到一幅图片时,先是快速扫过图片,然后锁定需要重点关注的目标区域。比如当我们观察下述图片时,注意力很容易就集中在了婴儿脸部、文章标题和文章首句等位置。试想,如果每个局部信息都不放过,那么必然耗费很多精力,不利于人类的生存进化。同样地,在深度学习网络中引入类似的机制,可以简化模型,加速计算。从本质上理解,Attention是从大量信息中有筛选出少量重要信息,并聚焦到这些重要信息上,忽略大多不重要的信息。

Transformer技术原理综述

图2 人类注意力机制示意图

3、技术详解

沁言学术 沁言学术

你的论文写作AI助理,永久免费文献管理工具,认准沁言学术

沁言学术 30 查看详情 沁言学术

智能Transformer模型抛弃了传统的CNN和RNN单元,整个网络结构完全是由注意力机制组成。在本章节中,我们会首先介绍 Transformer模型的总体流程,之后详细介绍其中涉及的位置编码信息和Self-Attention计算。

3.1 流程总述

Transformer技术原理综述

图3 注意力机制流程图

如上图所示,Transformer由Encoder模块和Decoder模块两个部分组成,Encoder和Decoder都包含N个block。以执行翻译任务为例,Transformer的工作流程大体如下:

第一步:获取输入句子的每一个单词的表示向量X,X由单词自身Embedding和单词位置的Embedding相加得到。

第二步:将得到的单词表示向量矩阵传入Encoder模块中,Encoder模块对于输入数据采用Attention方法进行计算。经过N个Encoder模块后可以得到句子所有单词的编码信息矩阵,每一个Encoder模块输出的矩阵维度与输入完全一致。

第三步:将Encoder模块输出的编码信息矩阵传递到Decoder模块中,Decoder会依次根据当前翻译过的单词i翻译下一个单词i+1。与Encoder结构相同,Decoder结构也使用Attention方法进行计算。在使用的过程中,翻译到单词i+1的时候需要通过Mask操作遮盖住i+1之后的单词。

3.2 Self-Attention计算

Transform模型的核心是注意力计算,其可以通过公式表示为

Transformer技术原理综述

其中,Q,K,V分别表示Query,Key,Value,这三个概念取自于信息检索系统,举个简单的搜索的例子来说。当你在某电商平台搜索某件商品时,你在搜索引擎上输入的内容便是Query,然后搜索引擎根据Query为你匹配Key(例如商品的种类,颜色,描述等),然后根据Query和Key的相似度得到匹配的内容(Value)。

self-attention中的Q,K,V也是起着类似的作用,在矩阵计算中,点积是计算两个矩阵相似度的方法之一,因此上述公式中使用了Q矩阵乘以K矩阵的转置进行相似度的计算。为了防止内积过大,需要除以d的平方根,最后对结果施以softmax激活函数。

3.3 位置编码

Transformer中除了单词自身的Embedding,还需要使用位置Embedding表示单词出现在句子中的位置。因为Transformer不采用RNN的结构,而是使用全局信息,不能利用单词的顺序信息,而这部分信息对于NLP或CV而言均非常重要。所以Transformer中使用位置Embedding保存单词在序列中的相对或绝对位置。

位置Embedding用PE表示,PE的维度与单词Embedding是一样的。PE可以通过训练得到,也可以使用某种公式计算得到。在Transformer中采用了后者,计算公式如下:

Transformer技术原理综述

其中,pos表示单词在句子中的位置,d表示PE的维度,其大小与单词自身Embedding相同,2i表示偶数的维度,2i+1表示奇数维度。

4、总结

Transformer的重点是Self-Attention结构,通过多维的Attention结构,网络可以捕获单词之间多种维度上的隐藏关系,然而Transformer本身是不能利用单词的顺序信息的,因此需要在输入中添加位置Embedding,用以存储单词的位置信息。与循环神经网络相比,Transformer网络可以比较好地并行训练,与卷积神经网络相比,Transformer网络计算两个位置之间的关联所需的操作次数不随距离增长,可以突破卷积神经网络受限于感受野大小的计算距离。同时,Transformer网络可以产生更具可解释性的模型。我们可以从模型中检查注意力分布,各个注意头(attention head)可以学会执行不同的任务。

以上就是Transformer技术原理综述的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/533442.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月9日 11:44:29
下一篇 2025年11月9日 11:49:31

相关推荐

  • 如何设置php网站内容自动分类_机器学习分类与标签配置方法

    先通过调用外部API或本地轻量模型实现PHP网站内容自动分类,结合机器学习为文本打标签。具体步骤包括:选择适合的机器学习方式(推荐初期使用Google Cloud、阿里云等NLP API);设计清晰的分类层级与标签体系;准备并清洗训练数据,确保样本质量;在PHP中通过cURL调用模型接口进行预测;将…

    2025年12月12日
    000
  • php如何生成一个验证码图片?php GD库生成图形验证码教程

    图形验证码通过PHP结合GD库生成,核心是创建图片、绘制随机字符与干扰元素,并将字符存入Session用于验证。 图形验证码,这个在互联网世界里既熟悉又让人有点烦躁的小东西,它的核心作用无非是想区分你究竟是人还是机器。PHP结合GD库来生成这类图片,其实是个挺经典也相当实用的场景。它不像那些复杂的机…

    2025年12月12日
    000
  • PHP源码AI算法嵌入_PHP源码AI算法嵌入详解

    PHP源码AI算法嵌入是通过PHP调用预训练模型或AI服务实现智能功能;2. 常用方法包括PHP调用Python脚本或云AI API;3. 算法选择需根据分类、回归、聚类或NLP等需求确定;4. 实践中可用exec()执行Python预测脚本并返回结果;5. 性能优化可通过数据压缩、缓存、异步处理和…

    2025年12月12日
    000
  • PHP框架在人工智能应用开发中的作用

    php 框架在人工智能应用开发中的作用:优势:模块化设计,轻松集成 ai 组件。可扩展性,应对需求增长。社区支持,提供广泛资源。实战案例:构建聊天机器人,展示框架的应用。使用 laravel 框架集成 tensorflow 服务。训练聊天机器人模型,响应用户输入。结论:php 框架使 ai 应用程序…

    2025年12月12日
    000
  • 什么是PIEVERSE币?值得购买吗?PIEVERSE主要功能、运作方式及代币经济学

    Binance币安 欧易OKX ️ Huobi火币️ 摘要 Pieverse旨在重新定义数字经济中的时间估值和货币化。总供应量为10亿枚PIEVERSE代币,目前流通量为1.75亿枚。24小时交易量为9,654.2619万美元,仅在CoinEx上交易。主要功能包括质押、治理和生产力目标奖励。最近的合…

    2025年12月12日
    000
  • Daeler Node (DNODE) 币是什么?如何运作?2026–2030年价格预测

    加密货币和人工智能的世界正在快速演变,dealer node (dnode) 已成为最令人瞩目的新基础设施解决方案之一。 Binance币安 欧易OKX ️ Huobi火币️ 与其提供另一个区块链、代币或模糊承诺的L2,DNODE更专注于一些非常实用的东西:去中心化运算,这开发者和自主代理可以立即使…

    2025年12月12日
    000
  • 2025年12月有望爆发的6大AI Meme(迷因)币详细介绍

    ai meme币已从一个有趣的利基市场发展成为加密市场中最不可预测的类别之一。过去忽视 meme币的交易者现在正密切关注,因为市场行为不再像一个笑话,而更像一个快节奏的趋势实验室,几乎每周都会形成新的叙事。 Binance币安 欧易OKX ️ Huobi火币️ 整个AI meme领域目前的市值已轻松…

    2025年12月12日
    000
  • 哪些主流交易所才是真正安全的?2025年最安全可靠的5家交易所

    Binance、OKX、Coinbase、Kraken和KuCoin五家平台在监管合规、资产储备证明和技术防护方面表现突出:Binance设SAFU基金并用默克尔树公示储备;OKX提供可验证的PoR系统及混合存储技术;Coinbase严守美国合规并为线上资产投保;Kraken以第三方审计和安全文化著…

    2025年12月12日
    000
  • 割韭菜庄家如何操作?拉盘、砸盘、洗盘逻辑及背后操作手法

    尤其在一些市场中,部分不法分子利用信息不对称和资金优势,通过一系列操作手法来获取不当利益。这些手法通常包括拉高资产价格以吸引追风者,随后又迅速抛售,导致价格暴跌,令跟风者蒙受损失。理解这些操作背后的逻辑和具体手法,对于保护个人资产、理性参与市场至关重要。本文将深入探讨这些所谓的“庄家”如何通过拉盘、…

    2025年12月12日
    000
  • 才刚卖币套现!罗伯特清崎又喊:世纪大崩盘来袭、点名4大保命资产

    畅销理财书籍《富爸爸,穷爸爸》的作者罗伯特·清崎(robert kiyosaki)再次发出强烈警示,宣称他多年来一直预言的“史上最大崩盘”正在逐步成形。尽管他不久前才在高位卖出部分比特币实现盈利,但他仍坚定呼吁投资者应把握时机,积极囤入具备抗风险能力的优质资产,以应对即将到来的全球经济巨震。 Bin…

    2025年12月12日
    000
  • Irys(IRYS)币是什么?未来潜力如何?IRYS代币经济,空投领取与价格预测

    它是一条layer-1 数据链,旨在通过结合去中心化存储、数据可用性和 evm 兼容的执行环境,使链上数据可编程。 这使得智能合约能够高速读取和处理存储的数据,从而在人工智能、授权许可和可验证数据应用领域开辟新的用例。借助这种模式,该平台将自身定位为一个网络,在这个网络中,数据不再是被动的有效载荷,…

    2025年12月12日 好文分享
    000
  • Datagram Network (DGRAM)币是什么?去中心化基础设施网络的未来

    datagram network(dgram)是一个layer 1区块链网络,致力于为web3、人工智能、物联网等应用场景提供低延迟、高吞吐量和全球互联互通。该项目通过其创新的“hyper-fabric”网络架构,结合去中心化物理基础设施网络(depin),实现了高效的节点配额和跨链互操作性。本文将…

    2025年12月12日
    000
  • Fetch.ai (FET) 币是什么?FET未来增长潜力及价格展望

    Binance币安 欧易OKX ️ Huobi火币️ 1. Fetch.ai是什么? Fetch.ai (FET) 是一个结合人工智能 (AI) 和区块链的项目,旨在创建一个由“自主经济代理”(AEA) 分析数据并执行交易的系统。该项目的内核在于,由人工智能代理而非人类代表他人执行经济活动。例如,这…

    2025年12月12日
    000
  • Astra Nova(RVV)币是什么?如何运作?代币经济学、未来展望解析

    游戏、人工智能(ai)与数字资产所有权正在以前所未有的速度融合,而由沙特阿拉伯 rogue sentinel studios开发的 astra nova 正站在这场变革的中心。作为下一代 ai 娱乐生态,astra nova 将沉浸式 rpg 游戏玩法、互动漫画、动态叙事以及现实世界奖励融合为一个互…

    2025年12月12日
    000
  • 一文详细了解以太坊(ETH)的下一个十年:从可验证计算机到互联网产权

    Binance币安 欧易OKX ️ Huobi火币️ 在以太坊 Devconnect ARG 上,LambdaClass 创始人 Fede 发表了一场激情澎湃且发人深省的演讲。他摒弃了传统的「世界计算机」叙事,将以太坊重新定义为人类历史上第一台「可验证计算机」。Fede 认为,这种不依赖信任、仅基于…

    2025年12月12日
    000
  • AgentLayer (AGENT) 币是什么?如何运作?代币经济学、价格分析

    随着自动化代理和大型语言模型(llms)的兴起,人工智能领域正迈入一个新时代。这些ai 代理人不再是被动工具。相反,它们作为独立系统,能够进行推理、决策,并以最小的人类介入运行复杂任务。这一转变对于新用户提出了一个关键问题:agentlayer是什么,为什么它正成为代理型ai经济的基础层? Bina…

    2025年12月12日
    000
  • 比特币(BTC)重返9万美元后能否开启圣诞行情?一文了解

    不管是老中还是老外,都逃不过一个「好好团圆过节」的传统心理。每年 11 月的第四个星期四,是美国传统的重大节日感恩节。 Binance币安 欧易OKX ️ Huobi火币️ 而今年的感恩节,币圈人最想感恩的可能是比特币重回了 9 万美元。 除了「节日行情」的因素影响,一份因政府停摆而意外成为关键决策…

    2025年12月12日
    000
  • 加密货币市场分析:未来趋势与潜在机会

    加密货币市场正迈向成熟,2025年呈现三大趋势:一是Layer 2与模块化区块链普及,提升可扩展性;二是AI与区块链融合,推动智能治理与去中心化算力发展;三是实体资产代币化(RWA)加速,增强传统资产流动性。宏观环境趋稳,机构资金涌入,多链生态形成良性竞争。未来机会集中于跨链互操作、去中心化身份、创…

    2025年12月11日
    000
  • 什么是币安币(BNB)?BNB价格预测2025-2030年

    币安币(BNB)是币安平台发行的功能型代币,最初为ERC-20代币,后迁移至自主开发的BNB链,成为生态系统的核心燃料。BNB主要用途包括支付交易手续费折扣、作为BNB链的Gas费、参与币安Launchpad和Launchpool等平台活动,以及在越来越多的线上线下场景中作为支付工具。为增强其价值,…

    2025年12月11日
    000
  • 2025年新的加密货币有哪些种类一览

    随着数字资产领域的不断演进,2025年的市场将迎来更多与现实世界应用紧密结合的创新项目。这些新兴种类不再局限于简单的价值存储或交易媒介,而是旨在解决特定行业的问题,并推动技术融合。了解这些前沿趋势,对于把握未来机遇至关重要。 欧易官网入口: 欧易APP下载链接: 币安官网入口: 币安APP下载链接:…

    2025年12月11日
    100

发表回复

登录后才能评论
关注微信