人类偏好就是尺！SPPO对齐技术让大语言模型左右互搏、自我博弈

程序猿 • 2025年11月26日 16:13:09 • 用户投稿 • 阅读 0

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

Richard Sutton 在「The Bitter Lesson」中做过这样的评价：「从70年的人工智能研究中可以得出的最重要教训是，那些利用计算的通用方法最终是最有效的，而且优势巨大。」

自我博弈（self play）就是这样一种同时利用搜索和学习从而充分利用和扩大计算规模的方法。

今年年初，加利福尼亚大学洛杉矶分校（UCLA）的顾全全教授团队提出了一种自我博弈微调方法 (Self-Play Fine-Tuning, SPIN)，可不使用额外微调数据，仅靠自我博弈就能大幅提升 LLM 的能力。

最近，顾全全教授团队和卡内基梅隆大学（CMU）Yiming Yang教授团队合作开发了一种名为「自我博弈偏好优化（Self-Play Preference Optimization, SPPO）」的对齐技术，这一新方法旨在通过自我博弈的框架来优化大语言模型的行为，使其更好地符合人类的偏好。左右互搏再显神通！

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

人类偏好就是尺！sppo对齐技术让大语言模型左右互搏、自我博弈

论文标题：Self-Play Preference Optimization for Language Model Alignment

论文链接：https://arxiv.org/pdf/2405.00675.pdf

技术背景与挑战

大语言模型（LLM）正成为人工智能领域的重要推动力，凭借其出色的文本生成和理解能力在种任务中表现卓越。尽管LLM的能力令人瞩目，但要使这些模型的输出行为更符合实际应用中的需求，通常需要通过对齐（alignment）过程进行微调。

这个过程关键在于调整模型以更好地反映人类的偏好和行为准则。常见的方法包括基于人类反馈的强化学习（RLHF）或者直接偏好优化（Direct Preference Optimization,DPO）。

基于人类反馈的强化学习（RLHF）依赖于显式的维护一个奖励模型用来调整和细化大语言模型。换言之，例如，InstructGPT就是基于人类偏好数据先训练一个服从Bradley-Terry模型的奖励函数，然后使用像近似策略优化（Proximal Policy Optimization,PPO）的强化学习算法去优化大语言模型。去年，研究者们提出了直接偏好优化（Direct Preference Optimization,DPO）。

不同于RLHF维护一个显式的奖励模型，DPO算法隐含的服从Bradley-Terry模型，但可以直接用于大语言模型优化。已有工作试图通过多次迭代的使用DPO来进一步微调大模型 (图1)。

人类偏好就是尺！SPPO对齐技术让大语言模型左右互搏、自我博弈

图1.基于Bradley-Terry模型的迭代优化方法缺乏理论理解和保证

如Bradley-Terry这样的参数模型会为每个选择提供一个数值分数。这些模型虽然提供了合理的人类偏好近似，但未能完全捕获人类行为的复杂性。

这些模型往往假设不同选择之间的偏好关系是单调和传递的，而实证证据却常常显示出人类决策的非一致性和非线性，例如Tversky的研究观察到人类决策可能会受到多种因素的影响，并表现出不一致性。

SPPO的理论基础与方法

人类偏好就是尺！SPPO对齐技术让大语言模型左右互搏、自我博弈

INFINITE ALBUM

面向游戏玩家的生成式AI音乐

INFINITE ALBUM 144 查看详情

图2.假想的两个语言模型进行常和博弈。

在这些背景下，作者提出了一个新的自我博弈框架 SPPO，该框架不仅具有解决两玩家常和博弈（two-player constant-sum game）的可证明保证，而且可以扩展到大规模的高效微调大型语言模型。

具体来说，文章将RLHF问题严格定义为一个两玩家常和博弈（图2）。该工作的目标是识别纳什均衡策略，这种策略在平均意义上始终能提供比其他任何策略更受偏好的回复。

为了近似地识别纳什均衡策略，作者采用了具有乘法权重的经典在线自适应算法作为解决两玩家博弈的高层框架算法。

在该框架的每一步内，算法可以通过自我博弈机制来近似乘法权重更新，其中在每一轮中，大语言模型都在针对上一轮的自身进行微调，通过模型生成的合成数据和偏好模型的注释来进行优化。

具体来说，大语言模型在每一轮回会针对每个提示生成若干回复；依据偏好模型的标注，算法可以估计出每个回复的胜率；算法从而可以进一步微调大语言模型的参数使得那些胜率高的回复拥有更高的出现概率（图3）。

人类偏好就是尺！SPPO对齐技术让大语言模型左右互搏、自我博弈

图3.自我博弈算法的目标是微调自身从而胜过上一轮的语言模型

实验设计与成果

在实验中，研究团队采用了一种Mistral-7B作为基线模型，并使用了UltraFeedback数据集的60,000个提示(prompt)进行无监督训练。他们发现，通过自我博弈的方式，模型能够显著提高在多个评估平台上的表现，例如AlpacaEval 2.0和MT-Bench。这些平台广泛用于评估模型生成文本的质量和相关性。

通过SPPO方法，模型不仅在生成文本的流畅性和准确性上得到了改进，更重要的是：「它在符合人类价值和偏好方面表现得更加出色」。

人类偏好就是尺！SPPO对齐技术让大语言模型左右互搏、自我博弈

图4.SPPO模型在AlpacaEval 2.0上的效果提升显著，且高于如 Iterative DPO 的其他基准方法。

在AlpacaEval 2.0的测试中（图4），经过SPPO优化的模型在长度控制胜率方面从基线模型的17.11%提升到了28.53%，显示了其对人类偏好理解的显著提高。经过三轮SPPO优化的模型在AlpacaEval2.0上显著优于多轮迭代的DPO, IPO和自我奖励的语言模型（Self-Rewarding LM）。

此外，该模型在MT-Bench上的表现也超过了传统通过人类反馈调优的模型。这证明了SPPO在自动调整模型行为以适应复杂任务方面的有效性。

结论与未来展望

自我博弈偏好优化（SPPO）为大语言模型提供了一个全新的优化路径，不仅提高了模型的生成质量，更重要的是提高了模型与人类偏好的对齐度。

随着技术的不断发展和优化，预计SPPO及其衍生技术将在人工智能的可持续发展和社会应用中发挥更大的作用，为构建更加智能和负责任的AI系统铺平道路。

以上就是人类偏好就是尺！SPPO对齐技术让大语言模型左右互搏、自我博弈的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/796336.html

ai j type 工程自我博弈偏好优化

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

《谷歌翻译》拍照翻译方法

上一篇 2025年11月26日 16:13:08

智能硬件app开发如何实现多设备管理‌

下一篇 2025年11月26日 16:13:10

好文分享

Uniapp 中如何不拉伸不裁剪地展示图片？

灵活展示图片：如何不拉伸不裁剪在界面设计中，常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。对于不同尺寸的图片，可以采用以下处理方式：极端宽高比：撑满屏幕宽度或高度，再等比缩放居中。非极端宽高比：居中显示，若能撑满则撑满。然而，如果需要不拉伸不…

程序猿
2025年12月24日
4000
好文分享

如何让小说网站控制台显示乱码，同时网页内容正常显示？

如何在不影响用户界面的情况下实现控制台乱码？当在小说网站上下载小说时，大家可能会遇到一个问题：网站上的文本在网页内正常显示，但是在控制台中却是乱码。如何实现此类操作，从而在不影响用户界面（UI）的情况下保持控制台乱码呢？答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体，并通过在客户端…

程序猿
2025年12月24日
8000
好文分享

如何在地图上轻松创建气泡信息框？

地图上气泡信息框的巧妙生成地图上气泡信息框是一种常用的交互功能，它简便易用，能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。利用地图库的原生功能大多数地图库，如高德地图，都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现：高德地图 JS API 参考文…

程序猿
2025年12月24日
4000
好文分享

如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画？

如何实现元素scrollleft变化时的平滑动画效果？在许多网页应用中，滚动容器的水平滚动条（scrollleft）需要频繁使用。为了让滚动动作更加自然，你希望给scrollleft的变化添加动画效果。解决方案：scroll-behavior 属性要实现scrollleft变化时的平滑动画效果…

程序猿
2025年12月24日
0000
好文分享

如何为滚动元素添加平滑过渡，使滚动条滑动时更自然流畅？

给滚动元素平滑过渡如何在滚动条属性（scrollleft）发生改变时为元素添加平滑的过渡效果？解决方案：scroll-behavior 属性为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码： click the button to slide right!…

程序猿
2025年12月24日
6000
好文分享

如何选择元素个数不固定的指定类名子元素？

灵活选择元素个数不固定的指定类名子元素在网页布局中，有时需要选择特定类名的子元素，但这些元素的数量并不固定。例如，下面这段 html 代码中，activebar 和 item 元素的数量均不固定： *n *n 如果需要选择第一个 item元素，可以使用 css 选择器 :nth-child()。该…

程序猿
2025年12月24日
3000
好文分享

使用 SVG 如何实现自定义宽度、间距和半径的虚线边框？

使用 svg 实现自定义虚线边框如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片，但是这种方法存在引入外部资源、性能低下的缺点。为了避免上述问题，可以使用 svg（可缩放矢量图形）来创建纯代码实现。一种方…

程序猿
2025年12月24日
2000
好文分享

如何让“元素跟随文本高度，而不是撑高父容器？

如何让元素跟随文本高度，而不是撑高父容器在页面布局中，经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中，父容器被较高的图片撑开，而文本的高度没有被考虑。本问答将提供纯css解决方案，让图片跟随文本高度，确保父容器的高度不会被图片影响。解决方法为了解决这个问题，需要将图片从文档流中脱离…

程序猿
2025年12月24日
1000
好文分享

为什么 CSS mask 属性未请求指定图片？

解决 css mask 属性未请求图片的问题在使用 css mask 属性时，指定了图片地址，但网络面板显示未请求获取该图片，这可能是由于浏览器兼容性问题造成的。问题如下代码所示：立即学习“前端免费学习笔记（深入）”； icon [data-icon=”cloud”] { –icon-cl…

程序猿
2025年12月24日
3000
好文分享

如何利用 CSS 选中激活标签并影响相邻元素的样式？

如何利用 css 选中激活标签并影响相邻元素？为了实现激活标签影响相邻元素的样式需求，可以通过 :has 选择器来实现。以下是如何具体操作：对于激活标签相邻后的元素，可以在 css 中使用以下代码进行设置： li:has(+li.active) { border-radius: 0 0 10px…

程序猿
2025年12月24日
2000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
3000
好文分享

为什么我的 Safari 自定义样式表在百度页面上失效了？

为什么在 Safari 中自定义样式表未能正常工作？在 Safari 的偏好设置中设置自定义样式表后，您对其进行测试却发现效果不同。在您自己的网页中，样式有效，而在百度页面中却失效。造成这种情况的原因是，第一个访问的项目使用了文件协议，可以访问本地目录中的图片文件。而第二个访问的百度使用了 ht…

程序猿
2025年12月24日
1000
好文分享

如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果？

如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果，可以通过以下途径： CSS 解决方案 DEMO 1: Windows 10 网格悬停效果：https://codepen.io/tr4553r7/pe…

程序猿
2025年12月24日
1000
好文分享

使用CSS mask属性指定图片URL时，为什么浏览器无法加载图片？

css mask属性未能加载图片的解决方法使用css mask属性指定图片url时，如示例中所示： mask: url(“https://api.iconify.design/mdi:apple-icloud.svg”) center / contain no-repeat; 但是，在网络面板中却…

程序猿
2025年12月24日
1000
好文分享

如何用CSS Paint API为网页元素添加时尚的斑马线边框？

为元素添加时尚的斑马线边框在网页设计中，有时我们需要添加时尚的边框来提升元素的视觉效果。其中，斑马线边框是一种既醒目又别致的设计元素。实现斜向斑马线边框要实现斜向斑马线间隔圆环，我们可以使用css paint api。该api提供了强大的功能，可以让我们在元素上绘制复杂的图形。立即学习“前端…

程序猿
2025年12月24日
1000
好文分享

图片如何不撑高父容器？

如何让图片不撑高父容器？当父容器包含不同高度的子元素时，父容器的高度通常会被最高元素撑开。如果你希望父容器的高度由文本内容撑开，避免图片对其产生影响，可以通过以下 css 解决方法：绝对定位元素： .child-image { position: absolute; top: 0; left: …

程序猿
2025年12月24日
1000
CSS 帮助

我正在尝试将文本附加到棕色框的左侧。我不能。我不知道代码有什么问题。请帮助我。 css .hero { position: relative; bottom: 80px; display: flex; justify-content: left; align-items: start; color:…

程序猿
2025年12月24日 • 好文分享
3000
好文分享

前端代码辅助工具：如何选择最可靠的AI工具？

前端代码辅助工具：可靠性探讨对于前端工程师来说，在HTML、CSS和JavaScript开发中借助AI工具是司空见惯的事情。然而，并非所有工具都能提供同等的可靠性。个性化需求关于哪个AI工具最可靠，这个问题没有一刀切的答案。每个人的使用习惯和项目需求各不相同。以下是一些影响选择的重要因素：立…

程序猿
2025年12月24日
1000
好文分享

如何用 CSS Paint API 实现倾斜的斑马线间隔圆环？

实现斑马线边框样式：探究 css paint api 本文将探究如何使用 css paint api 实现倾斜的斑马线间隔圆环。问题：给定一个有多个圆圈组成的斑马线图案，如何使用 css 实现倾斜的斑马线间隔圆环？答案：立即学习“前端免费学习笔记（深入）”；使用 css paint api…

程序猿
2025年12月24日
1000
好文分享

如何使用CSS Paint API实现倾斜斑马线间隔圆环边框？

css实现斑马线边框样式想定制一个带有倾斜斑马线间隔圆环的边框？现在使用css paint api，定制任何样式都轻而易举。 css paint api 这是一个新的css特性，允许开发人员创建自定义形状和图案，其中包括斑马线样式。立即学习“前端免费学习笔记（深入）”；实现倾斜斑马线间隔圆环 …

程序猿
2025年12月24日
1000

发表回复

登录后才能评论

人类偏好就是尺！SPPO对齐技术让大语言模型左右互搏、自我博弈

关于作者

相关推荐

发表回复