新标题：Meta改进Transformer架构：强化推理能力的新注意力机制

程序猿 • 2025年11月8日 02:21:50 • 用户投稿 • 阅读 1

大型语言模型（LLM）的强大已经是不容置疑的事实，然而它们有时仍然会犯一些简单的错误，显示出推理能力较弱的一面

举个例子，LLM 可能会因为不相关的上下文或者输入提示中固有的偏好或意见而做出错误的判断。后一种情况表现出的问题被称为「阿谀奉承」，即模型与输入保持一致

是否有任何方法可以缓解这类问题呢？一些学者尝试通过添加更多的监督训练数据或强化学习策略来解决，但这些方法无法从根本上解决问题

在最近的一项研究中，Meta研究者指出，Transformer模型本身的构建方式存在根本性问题，尤其是其注意力机制。换句话说，软注意力倾向于将概率分配给大部分上下文（包括不相关的部分），并且过度关注重复的标记

因此，研究人员提出了一种完全不同的注意力机制方法，即通过将LLM用作一个自然语言推理器来执行注意力。具体来说，他们利用LLM遵循指令的能力，提示它们生成应该关注的上下文，从而使它们只包含不会扭曲自身推理的相关资料。研究人员将这一过程称为System 2 Attention（S2A），他们将底层transformer及其注意力机制视为类似于人类System 1推理的自动操作

当人们需要特别关注一项任务并且 System 1 可能出错时，System 2 就会分配费力的脑力活动，并接管人类的工作。因此，这一子系统与研究者提出的 S2A 具有类似目标，后者希望通过额外的推理引擎工作来减轻上述 transformer 软注意力的失败

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

需要重写的内容是：论文链接：https://arxiv.org/pdf/2311.11829.pdf

AI新媒体文章

专为新媒体人打造的AI写作工具，提供“选题创作”、“文章重写”、“爆款标题”等功能

75 查看详情

研究者对S2A机制的类别、提出动机以及几个具体实现进行了详细描述。在实验阶段，他们证实S2A相比基于标准注意力的LLM，可以产生更加客观、少见主观偏见或谄媚的LLM

特别是在问题中包含干扰性观点的修正后 TriviQA 数据集上，与 LLaMA-2-70B-chat 相比，S2A 将事实性从 62.8% 提高到 80.3%；在包含干扰性输入情绪的长格式参数生成任务重，S2A 的客观性提高了 57.4%，并且基本上不受插入观点的影响。此外对于 GSM-IC 中带有与主题不相关语句的数学应用题，S2A 将准确率从 51.7% 提高到了 61.3%。

这项研究得到了 Yann LeCun 的推荐。

System 2 Attention

下图1展示了一个伪相关示例。当上下文中包含不相关的句子时，即使是最强大的LLM也会改变对于简单事实问题的答案，因为上下文中出现的词语无意间增加了错误答案的概率

因此，我们需要研究一种更深入理解的、更深思熟虑的注意力机制。为了与更底层的注意力机制区分开来，研究者提出了一个被称为S2A的系统。他们探索了一种利用LLM本身来构建这种注意力机制的方法，特别是通过移除不相关的文本来重写上下文的指令调整LLM

通过这种方法，LLM 能够在产生回应之前对输入的相关部分进行仔细推理和决策。使用指令调整的 LLM 还有一个优点，就是可以控制注意力的焦点，这与人类控制自己注意力的方式有些相似

S2A包括两个步骤：

给定上下文 x，S2A 首先重新生成上下文 x ‘，从而删除会对输出产生不利影响的上下文的不相关部分。本文将其表示为 x ′ ∼ S2A (x)。给定 x ′ ，然后使用重新生成的上下文而不是原始上下文生成 LLM 的最终响应：y ∼ LLM (x ′ )。

替代实现和变体

在本文中，我们研究了S2A方法的几种不同版本

无上下文和问题分离。在图 2 的实现中，本文选择重新生成分解为两部分（上下文和问题）的上下文。图 12 给出了该提示变体。

保留原始上下文在 S2A 中，在重新生成上下文之后，应该包含所有应该注意的必要元素，然后模型仅在重新生成的上下文上进行响应，原始上下文被丢弃。图 14 给出了该提示变体。

指令式提示。图 2 中给出的 S2A 提示鼓励从上下文中删除固执己见的文本，并使用步骤 2（图 13）中的说明要求响应不固执己见。

S2A的实现都强调重新生成上下文以提高客观性并减少阿谀奉承。然而，该文章认为还有其他需要强调的点，比如，我们可以强调相关性与不相关性。图15中的提示变体就给出了一个实例

实验

本文进行了三种设置下的实验：事实问答、长论点生成和解决数学应用题。此外，本文还使用LLaMA-2-70B-chat作为基础模型，在两种设置下进行了评估

基线：数据集中提供的输入提示被馈送到模型，并以零样本方式回答。模型生成可能会受到输入中提供的虚假相关性的影响。Oracle Prompt：没有附加意见或不相关句子的提示被输入到模型中，并以零样本的方式回答。

图 5 (左) 展示了在事实问答上的评估结果。System 2 Attention 比原来的输入提示有了很大的改进，准确率达到 80.3%—— 接近 Oracle Prompt 性能。

总体结果显示，基线、Oracle Prompt和System 2 Attention都被评估为能够提供类似的高质量评估。图6（右）显示了分项结果：

在GSM-IC任务中，图7展示了不同方法的结果。与Shi等人的研究结果一致，我们发现基线准确率远低于oracle。当不相关的句子与问题属于同一主题时，这种影响甚至更大，如图7（右）所示

了解更多内容，请参考原论文。

以上就是新标题：Meta改进Transformer架构：强化推理能力的新注意力机制的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/458106.html

llama 模型训练

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

超级逗萌兽英雄培养指南

上一篇 2025年11月8日 02:21:46

VSCode如何快速编写HTML？AutoRenameTag插件自动同步标签名称

下一篇 2025年11月8日 02:21:50

html的盒模型详解

这次给大家带来html的盒模型详解，使用html盒模型的注意事项有哪些，下面就是实战案例，一起来看一下。 1.1. 盒的内容区的尺寸— content width和content height —取决于几个因素： –生成该盒的元素是否设置了’width’或&#82…

程序猿
用户投稿 2025年12月21日
0000
用户投稿

HiDream-I1— 智象未来开源的文生图模型

hidream-i1：一款强大的开源图像生成模型 HiDream-I1是由HiDream.ai团队开发的17亿参数开源图像生成模型，采用MIT许可证，在图像质量和对提示词的理解方面表现卓越。它支持多种风格，包括写实、卡通和艺术风格，广泛应用于艺术创作、商业设计、科研教育以及娱乐媒体等领域。 HiDr…

程序猿
2025年12月5日
2000
用户投稿

vivo Pad3 Pro 正式登场跑分离谱还有蓝心大模型

中关村在线消息：vivo 旗舰新品发布会正在进行中，本场发布会第一个登场的产品是 vivo pad3 pro。新款产品上来就放出王炸，搭载天玑 9300 处理器，跑分超过 210 万，也是行业首个突破 200 万的平板电脑。在游戏测试中，在 90 帧 +hdr 高清画质下，帧率稳定一条直线，性能十分…

程序猿
2025年12月5日
0000
谷歌揭秘大模型不会数 r 原因：嵌入维度是关键，不止分词器问题

大模型做奥赛题游刃有余，简单的数数却屡屡翻车的原因找到了。谷歌的一项新研究，发现大模型不会数数的原因，并不是简单的 tokenizer 所致，而是没有足够的空间来存储用于计数的向量。数出一段话中某个单词出现的次数，这样简单的任务可以难倒许多大模型，GPT-4o、Claude 3.5 也无法幸免。…

程序猿
2025年12月5日 • 用户投稿
1000
显著超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

上海交大、上海ai lab和港中文大学的研究人员推出visual-rft（视觉强化微调）开源项目，该项目仅需少量数据即可显著提升视觉语言大模型（lvlm）性能。visual-rft巧妙地将deepseek-r1的基于规则奖励的强化学习方法与openai的强化微调（rft）范式相结合，成功地将这一方法…

程序猿
2025年12月3日 • 用户投稿
0000
AI 越聪明越不听话！新研究：最强推理模型指令遵循率仅 50%

如果面前有两个 ai 助手：一个很聪明但经常不守规矩，另一个很听话但不太聪明，你会怎么选？最近，上海人工智能实验室与香港中文大学的研究团队发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Lar…

程序猿
2025年12月3日 • 用户投稿
2000
RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

清华和上交的最新论文中，上演了一场“学术打假”的戏码。文中研究者们对当前“纯 rl 有利于提升模型推理能力”的主流观点提出了相反的意见。通过一系列实验，他们证明引入强化学习的模型在某些任务中的表现，竟然不如未使用强化学习的模型。论文批判性地探讨了 RLVR 在提升 LLM 推理能力方面的作用，尤…

程序猿
2025年12月3日 • 用户投稿
4000
《梦幻西游》全新赛事祥瑞即将来袭，剪影图曝光

《梦幻西游》电脑版全新赛事祥瑞曝光，11月将会和广大玩家正式亮相！你们猜猜这只祥瑞是以什么为原型做的设计，以及和梦幻接下来的什么活动有关无涯·问知无涯·问知，是一款基于星环大模型底座，结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情以上就是《梦幻…

程序猿
2025年12月2日 • 用户投稿
0000
用户投稿

《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻，激战曲阜服战队！

《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻，激战曲阜服战队！无涯·问知无涯·问知，是一款基于星环大模型底座，结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情以上就是《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻，激战曲阜服战队！的详细内容，更多请关注…

程序猿
2025年12月2日
0000
用户投稿

亚马逊发布 Bedrock，推出多项新功能，助力企业利用生成式AI技术

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 亚马逊网络服务公司近日在生态系统中推出了五款全新的生成式人工智能产品，这些产品将帮助企业客户利用自己的数据建立人工智能应用程序，并提供更好的安全性和模型的可及性。这些新服务的包括全面推出的Am…

程序猿
2025年12月2日
0000
探究词表选择对语言模型训练的影响：一项具有突破性的研究

语言模型受不同词表的影响有哪些？如何平衡这些影响？在最近的一项实验中，研究者对16个语言模型进行了不同的语料预训练和微调。这次实验使用了NanoGPT，一种小规模的架构（基于GPT-2 SMALL），共训练了12个模型。NanoGPT的网络架构配置为：12个注意力头、12层transformer，…

程序猿
2025年12月2日 • 用户投稿
1000
ICCV’23论文颁奖“神仙打架”！Meta分割一切和ControlNet共同入选，还有一篇让评委们很惊讶

在法国巴黎举行的计算机视觉顶峰大会iccv 2023刚刚结束！今年的最佳论文奖，简直是“神仙打架”。例如，获得最佳论文奖的两篇论文中，就包括颠覆文生图AI领域的著作——ControlNet。自从开源以来，ControlNet在GitHub上已经获得了24k个星。无论是对于扩散模型还是整个计算机…

程序猿
2025年12月2日 • 用户投稿
0000
谷歌：非等频采样时间序列表示学习新方法

在时间序列问题中，有一种类型的时间序列不是等频采样的，即每组相邻两个观测值的时间间隔不一样。时间序列表示学习在等频采样的时间序列中已经进行了比较多的研究，但是在这种不规则采样的时间序列中研究比较少，并且这类时间序列的建模方式和等频采样中的建模方式有比较大的差别今天介绍的这篇文章，在不规则采样的时间…

程序猿
2025年12月2日 • 用户投稿
0000
最多400万token上下文、推理提速22倍，StreamingLLM火了，已获GitHub 2.5K星

如果你曾经与任何一款对话式 AI 机器人交流过，你一定会记得一些令人感到非常沮丧的时刻。比如，你在前一天的对话中提到的重要事项，被 AI 完全忘记了…… 这是因为当前的多数 LLM 只能记住有限的上下文，就像为考试而临时抱佛脚的学生，稍加盘问就会「露出马脚」。如果AI助手能够在聊天中根据上下文参考…

程序猿
2025年12月2日 • 用户投稿
1000
令人惊讶的时间冗余方法：降低视觉Transformer计算成本的新途径

Transformer最初是为自然语言处理任务而设计的，但现在已经被广泛应用于视觉任务。视觉Transformer在多个视觉识别任务中展现出了出色的准确性，并在图像分类、视频分类和目标检测等任务中取得了当前最佳的表现视觉 Transformer 的一大缺点是计算成本高。典型的卷积网络（CNN）处理…

程序猿
2025年12月2日 • 用户投稿
8000
PyTorch+昇腾共促AI生态创新发展

2023年10月5日（北京时间），pyt%ignore_a_1%rch社区正式发布了2.1版本。经过pytorch社区与昇腾的持续合作和共同努力，pytorch 2.1版本已经同步支持昇腾npu。这意味着开发者可以直接在pytorch 2.1上进行基于昇腾的模型开发。未来，通过持续的社区技术贡献，昇…

程序猿
2025年12月2日 • 用户投稿
1000
选择最适合数据的嵌入模型：OpenAI 和开源多语言嵌入的对比测试

openai最近宣布推出他们的最新一代嵌入模型embedding v3，他们声称这是性能最出色的嵌入模型，具备更高的多语言性能。这一批模型被划分为两种类型：规模较小的text-embeddings-3-small和更为强大、体积较大的text-embeddings-3-large。 ☞☞☞AI 智能…

程序猿
2025年12月2日 • 用户投稿
0000
谷歌10M上下文窗口正在杀死RAG？被Sora夺走风头的Gemini被低估了？

要说最近最郁闷的公司，谷歌肯定算得上一个：自家的 Gemini 1.5 刚刚发布，就被 OpenAI 的 Sora 抢尽了风头，堪称 AI 界的「汪峰」。具体来说，谷歌这次推出的是用于早期测试的 Gemini 1.5 的第一个版本 ——Gemini 1.5 Pro。它是一种中型多模态模型（涉及文本…

程序猿
2025年12月2日 • 用户投稿
6000
马斯克预测 Grok 5 实现通用人工智能概率 10%且还在上升

近日，特斯拉与 spacex 首席执行官马斯克在社交平台上发表言论，预测其旗下人工智能公司 xai 正在研发的 grok 5 大型语言模型，有 10% 的可能性实现通用人工智能（agi），并指出这一概率正持续攀升。上个月，马斯克就曾提出 xAI 或将通过 Grok 5 达成 AGI 的目标，此番言…

程序猿
2025年12月2日 • 用户投稿
0000
如何快速部署DeepSeek| 腾讯云TI部署指南

一、为什么选择deepseek与创想鸟hai的结合近年来，随着大模型在多种应用场景中的快速发展，AI工程师们迫切需要一种能够快速、高效且成本低廉的方式来部署和管理模型服务。PHP中文网HAI（高性能AI）平台是一个专为高性能计算和深度学习设计的综合解决方案，提供GPU/CPU资源调度、自动化部署以…

程序猿
2025年12月2日 • 用户投稿
11000

发表回复

登录后才能评论

新标题：Meta改进Transformer架构：强化推理能力的新注意力机制

System 2 Attention

实验

关于作者

相关推荐

发表回复