LLM | 偏好学习算法并不学习偏好排序

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

LLM | 偏好学习算法并不学习偏好排序图片

一、结论写在前面

偏好学习算法(preference learning algorithms)如rlhf和dpo)常用于引导大型语言模型(llms)生成更符合人类偏好的内容。但是,文献对其内部机制的理解仍有限。论文探讨了传统观点,即偏好学习训练模型通过排序准确性来赋予更偏好的输出比不太偏好的输出更高的似然性。

论文的工作凸显了偏好学习与排序准确性之间显著但关系微弱。论文理论和实证上都证明了RLHF和DPO难以教会模型正确地对偏好和非偏好好输出进行排序,即使在训练数据集中也是如此。尽管学习目标理论上促进了高排序准确性。论文发现大多数最先进的偏好调整模型在常见偏好数据集上的排序准确率不超过60%。论文进一步推导了如果偏好调整的LLM完美优化DPO或RLHF目标,其理想化的排序准确率。

论文证明现有模型存在显著的对齐差距——即观察察觉到的与理想化的排序准确率之间的差距。论文认为这种差异源于DPO目标,该目标在经验上和理论上都不适合修正参考模型中的轻微排序错误,并推导出一个简单高效的公式来量化学习特定偏好数据点的难度。最后,论文证明当模型接近目标中使用的参考模型时,排序准确性与经验上流行的胜率指标高度相关,进一步揭示了策略内(如RLHF)和策略外(如DPO)偏好学习算法之间的差异。

二、论文的简单介绍

2.1 论文的背景

偏好学习算法最初设计用于使用者之间的成对偏好数据集来训练模型,以准确性为目标。即,模型能够精确地将偏好的输出排在不偏好的输出之上。在语言模型的情况下,排序由分配给每个候选的相似性决定。因此,模型能够根据语义模型的情况,排序由分配给每个候选的相似性决定。

许多语言模型对齐技术早在产生具有高偏好排序准确性的模型,包括SLiC、RAFT、PRO和RRHF。最著名的是,Rafailov等人声称他们流行的直接偏好优化(DPO)算法”增加了优选响应相对于非优选响应的对数概率”。通常通过测量结果模型的生成结果相对于另一个模型的偏好程度(即胜率)来评估这些不同的目标[69]。然而,损失函数、排序准确性和胜率之间的关系尚不清楚,这让人不禁怀疑这些对齐技术在训练过程中实际上在做什么。

2.2 对齐差距

使用完美的参考模型训练以达到较低的DPO损失,将产生一个具有完美排序准确性的模型。然而,图1a显示,现实世界的参考模型在常见的偏好数据集上排序准确性较低,这促使讨论文研究更现实、不完美的参考模型。

2.2.1 现有参考模型很少具有正确排序

图1a表明,参考模型在常见的偏好数据集上很少能达到高排序准确性(除了合成指令GPT-J成对数据集),尽管许多模型可能已经根据偏好完成进行了训练。许多模型的训练数据没有详细记录,因此讨论文不清楚楚哪些偏好数据集,如果有的话,是分布内的。讨论还对几个预训练的大型语言模型(LLMs)进行了微调,以偏好完成,并观察到排序准确性并没有显著提高。基于讨论的发现,讨论转向不完美的参考模型的情况。

2.2.2 理想化的排序准确性

论文上面表明,从经验上看,参考模型在排序可能的完成时间表现出较大的准确性。然而,RLHF奖励和DPO目标被设计为确保模型学习偏好数据集,但不会偏离参考模型rRef太远,因此偏好调整模型的可能准确性可能存在限制。在这里,论文通过研究在完美优化DPO或RLHF时,当访问完美数据(即人类偏好的真实比例)时,最优策略将是什么,来正式化这一直观。

LLM | 偏好学习算法并不学习偏好排序    

2.2.3 测量对齐差距

论文发现了一些令人惊讶的结果。首先,即使在理想条件下(即在真实偏好数据上完美优化目标函数),理想排序准确性有时仍低于100%。这种差距随着β的选择而变化,表明DPO/RLHF的极限在很大程度上取决于对πRef的依赖程度。此外,论文发现许多最先进的模型都无法达到接近理想排序准确性的排序准确性,表现出19到59个百分点的对齐差距。

表1:现有算法的理想排名准确性并不完美,但偏好调整模型显示出的排名准确性远未达到这种理想情况。论文提供了在Alpaca Farm [8]验证数据集(详见附录C.2)上,多种开放访问的偏好调整模型的长度归一化(R)和非长度归一化(R)排名准确性。同时提供了理想排名准确性(推论3.3)。由于理想排名准确性可以通过多种B值计算,论文提供了最小、中位数和最大理想排名准确性值的范围,详情见附录C.4

LLM | 偏好学习算法并不学习偏好排序图片

2.3 理解DPO的排名准确性

论文现在转向训练目标来解释对齐差距。论文专注于DPO目标,因为其未能达到高排名准确性特别令人惊讶(表1)。特别是,DPO直接在线下数据集上最大化偏好-非偏好对的奖励边际,因此论文期望它在分布外的保留数据上表现良好。论文还注意到,DPO是社区中对齐LLMs的流行选择,因为它比执行RLHF成本更低。    

2.3.1 DPO很少改变偏好排序

为了研究DPO训练过程中排序准确性的变化,论文在Anthropic HH-RLHF偏好数据集上训练了三种规模的模型(GPT-2、Pythia 2.8B和Llama 2-7B),每种模型都有三个随机种子,并研究了训练数据集的不同分区上的排序准确性。论文在图2中展示了训练一个Pythia 2.8B模型的结果,其他两个模型的结果放在附录D.2中。在图2中,论文根据参考模型πRef是否具有正确的排序以及当前模型πθ是否具有正确的排序,将训练数据集中随机抽取的1K个样本划分为四组。

IT教育培训机构单页模板 IT教育培训机构单页模板

1、IT行业里其实有很多细分领域和工种,领域如云计算、游戏、电商、大数据、金融IT、智能硬件等,工种如开发、运维、测试、产品经理、项目经理、UI设计、数据分析师等,到底学哪个好?根据自身特长 爱好 2、虽然有很多细分领域,但是不是每个领域都适合你,比如像人工智能、VR开发等相比偏难一些的领域,我不觉得适合无计算机专业背景的小白学习,至少不应该做为初始的学习目标,因为这些领域涉及到计算机里各种复

IT教育培训机构单页模板 54 查看详情 IT教育培训机构单页模板

令人惊讶的是,图2显示,尽管DPO在训练过程中持续降低损失Cppo,但它很少改变排序。除了模型忘记正确偏好排序的那组点之外,论文观察到损失持续下降,奖励边际持续增加。然而,在验证损失最低的点,不到一半的错误排序点已被翻转为正确的排序。这表明DPO目标在实际中诱导高排序准确性方面存在问题。               

LLM | 偏好学习算法并不学习偏好排序图片

图2:尽管不断降低损失,DPO很少颠倒对子的排名,而是主要增加了已正确排序对子的奖励边际。论文使用DPO目标训练了一个Pythia-2.8B模型,并将训练数据集分为四个子集:初始时排名正确并被翻转为(1)正确或(2)错误的例子,以及初始时排名错误并被翻转为(3)正确或(4)错误的例子。在所有三个图中,点的色调表示类别。虚线垂直线表示评估损失达到最低的训练步骤。论文还为另外两个模型提供了每种三个种子的结果,详见附录D    

LLM | 偏好学习算法并不学习偏好排序图片

图 3:单独的 DPO 损失并不能预测排名准确性,这是由于损失中参考模型对数比率的影响。每个点代表来自训练数据集 1K 子样本中一个独立训练示例的 DPO 损失,使用的是对应于验证损失最低检查点的模型 rg-。每个点的颜色表示 wg 是否在该示例上实现了正确的排名,即是否 o (yw .c) > To* (yw w)。虚线是定理 4.1 中的函数 f(c) = – log o(3o)。总之,tg- 正确分类的示例往往是参考模型已经正确分类的那些。

2.3.2 分析:翻转排名有多容易?

下面的结果表明,DPO 损失可以在模型排名准确性没有改善的情况下显著降低。论文的理论成果使论文能够正式识别那些在其排名中难以翻转的点。图 3 展示了多种设置下的参考模型对数比率,并强调了即使在参考模型中排名错误轻微的数据点,也需要损失降低到非常低的值才能翻转排名。论文观察到,难以学习的数据点明显比易于学习的点要长,而且易于学习的数据点通常包含的偏好注释较为明确。更广泛地说,论文的结果激发了使用更强大的 TRef 模型以及 DPO 的迭代或策略内变体的需求。

2.4 排名准确性与胜率

论文对排名准确性的研究揭示了 DPO 和 RLHF 如何与偏好数据对齐,但论文尚未将这些见解与模型在对齐过程中生成行为的变化联系起来。特别是,排名准确性是一个方便但策略外的指标,因此不如策略内指标(如胜率)那样被广泛采用(见第 2.2 节)。论文通过排名准确性和胜率的视角,探讨了大型语言模型(LLMs)的策略内(即生成性)和策略外(即分类性)行为之间的差距。由于 DPO 目标直接优化排名准确性(命题 2.6),这两个指标之间的关系直接反映了策略外训练如何影响策略内行为。    

论文研究了胜率与排名准确性之间的关系,具体在两种情况下进行:(1) 在DPO训练期间,以及(2) 在一种调节TRef影响的DPO变体中。论文使用Alpaca Eval GPT4 自动标注工具对训练数据集中的500个响应进行胜率测量。

论文推测,当模型与参考模型相距较远时,向参考模型进行正则化可能会损害模型在预训练阶段主要获得生成能力。换句话说,当离线目标中使用的参考模型与当前模型相距甚远时,模型的离策略行为无法再可预测地描述在线策略生成。论文的发现证实了在拟合偏好数据与维持预训练阶段获得的生成能力之间的基本权衡[21],并与先前的观察结果一致,即添加在线策略偏好数据可以使离线学习更有效[48, 63, 23, 51]。

LLM | 偏好学习算法并不学习偏好排序图片

图4:当模型权重未远离ORef时,排名准确率和胜率同步增加。LLM | 偏好学习算法并不学习偏好排序 表示在检查点t时的模型权重,而0,表示模型权重转移

论文标题:Preference Learning Algorithms Do Not Learn Preference Rankings

论文链接:https://www.php.cn/link/b984bddf9e7c8fb09854e208c0284764    

以上就是LLM | 偏好学习算法并不学习偏好排序的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/794614.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月26日 15:24:52
下一篇 2025年11月26日 15:30:49

相关推荐

  • HiDream-I1— 智象未来开源的文生图模型

    hidream-i1:一款强大的开源图像生成模型 HiDream-I1是由HiDream.ai团队开发的17亿参数开源图像生成模型,采用MIT许可证,在图像质量和对提示词的理解方面表现卓越。它支持多种风格,包括写实、卡通和艺术风格,广泛应用于艺术创作、商业设计、科研教育以及娱乐媒体等领域。 HiDr…

    2025年12月5日
    000
  • js如何实现文本差异对比 4种差异比对算法快速找出文本变化内容

    js实现文本差异对比需遵循以下步骤:1.预处理文本,如清洗字符;2.选择算法如lcs、diff、levenshtein距离或基于单词的对比;3.用js实现所选算法;4.将结果以高亮或报告形式展示。lcs通过动态规划找出最长公共子序列,可优化空间与提前结束运算。diff算法识别插入、删除、替换操作,可…

    2025年12月5日 web前端
    000
  • 如何在 Excel 中按字母顺序排序数据

    1、Excel中按字母顺序整理文本数据可通过内置排序功能实现。选中单元格后使用“开始”选项卡中的“升序”按钮可快速对单列排序;2、对于多列关联数据,应在“数据”选项卡中打开排序对话框,设置主要关键字并选择“扩展选定区域”,确保整行同步移动;3、若需倒序排列,可点击“降序(Z-A)”按钮,系统提示时选…

    2025年12月3日 软件教程
    000
  • RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

    清华和上交的最新论文中,上演了一场“学术打假”的戏码。文中研究者们对当前“纯 rl 有利于提升模型推理能力”的主流观点提出了相反的意见。 通过一系列实验,他们证明引入强化学习的模型在某些任务中的表现,竟然不如未使用强化学习的模型。 论文批判性地探讨了 RLVR 在提升 LLM 推理能力方面的作用,尤…

    2025年12月3日 科技
    100
  • SQL排序规则设置 SQL ORDER BY使用指南

    sql排序规则冲突可通过显式指定排序规则、更改数据库或列的默认排序规则、使用临时表或转换数据类型解决。1. 显式指定排序规则:在查询中使用collate子句,如table2.column2 collate database_default,避免修改原始设置但需逐处添加;2. 更改默认排序规则:用al…

    2025年12月3日 数据库
    000
  • Writesonic怎样用生成续写扩篇幅_Writesonic用生成续写扩篇幅【篇幅扩展】

    使用Writesonic可有效扩写文章:一、用“Continue Writing”功能生成连贯续写;二、通过“Explain this in detail with examples”指令深化内容;三、以“Provide a counter-argument”引入多视角论述;四、利用FAQ生成器创建…

    2025年12月2日 科技
    000
  • 亚马逊发布 Bedrock,推出多项新功能,助力企业利用生成式AI技术

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 亚马逊网络服务公司近日在生态系统中推出了五款全新的生成式人工智能产品,这些产品将帮助企业客户利用自己的数据建立人工智能应用程序,并提供更好的安全性和模型的可及性。 这些新服务的包括全面推出的Am…

    2025年12月2日
    000
  • ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项

    在法国巴黎举行了国际计算机视觉大会ICCV(International Conference on Computer Vision)本周开幕 作为全球计算机视觉领域顶级的学术会议,ICCV 每两年召开一次。 ICCV的热度一直以来都与CVPR不相上下,屡创新高 在今天的开幕式上,ICCV官方公布了今…

    2025年12月2日 科技
    000
  • 最多400万token上下文、推理提速22倍,StreamingLLM火了,已获GitHub 2.5K星

    如果你曾经与任何一款对话式 AI 机器人交流过,你一定会记得一些令人感到非常沮丧的时刻。比如,你在前一天的对话中提到的重要事项,被 AI 完全忘记了…… 这是因为当前的多数 LLM 只能记住有限的上下文,就像为考试而临时抱佛脚的学生,稍加盘问就会「露出马脚」。 如果AI助手能够在聊天中根据上下文参考…

    2025年12月2日 科技
    000
  • 利用全景图视觉自注意力模型进行室内框架估计的方法

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 一、研究背景 此方法主要关注室内框架估计(indoor estimation layout estimation)任务,任务输入2D图片,输出图片所描述场景的三维模型。考虑到直接输出三维模型的复…

    2025年12月2日 科技
    000
  • PyTorch+昇腾 共促AI生态创新发展

    2023年10月5日(北京时间),pyt%ignore_a_1%rch社区正式发布了2.1版本。经过pytorch社区与昇腾的持续合作和共同努力,pytorch 2.1版本已经同步支持昇腾npu。这意味着开发者可以直接在pytorch 2.1上进行基于昇腾的模型开发。未来,通过持续的社区技术贡献,昇…

    2025年12月2日 科技
    000
  • 生产式AI驱动的主机自动化测试

    译者 | 陈峻 审校 | 重楼 将传统大型主机应用的代码和数据迁移到现代化技术架构上,被认为是企业数字化发展的关键步骤。在追求效率和可扩展性的过程中,这种转变通常涉及从传统大型主机环境迁移到更灵活的云计算或内部部署方案中。这样的转型有助于企业实现更高的灵活性和创新能力,同时降低成本和提高安全性。这种…

    2025年12月2日 科技
    000
  • 「人车交互」新突破!普渡大学发布Talk2Drive框架:可学习/定制的「指令识别」系统

    在普渡大学数字孪生实验室的最新研究中,科学家们采用了一项革命性技术——利用大型语言模型(llm)来增强自动驾驶汽车的智能指令解析能力。这一创新为自动驾驶技术的发展带来了新的可能性,有望提高车辆对驾驶指令的理解和响应速度。 这项技术的关键是Talk2Drive框架,旨在利用人类自然语言来操控自动驾驶汽…

    2025年12月2日 科技
    000
  • 选择最适合数据的嵌入模型:OpenAI 和开源多语言嵌入的对比测试

    openai最近宣布推出他们的最新一代嵌入模型embedding v3,他们声称这是性能最出色的嵌入模型,具备更高的多语言性能。这一批模型被划分为两种类型:规模较小的text-embeddings-3-small和更为强大、体积较大的text-embeddings-3-large。 ☞☞☞AI 智能…

    2025年12月2日 科技
    000
  • 变革性趋势:生成式人工智能及其对软件开发的影响

    人工智能的崛起正在推动软件开发的快速发展。这一强大技术有可能彻底改变我们构建软件的方法,对设计、开发、测试和部署等各个方面都会产生深远影响。 对于企图进入动态软件开发领域的企业来说,生成式人工智能技术的问世为它们提供了前所未有的发展机遇。将这一前沿技术纳入其开发流程后,公司可以大幅提升生产效率、缩短…

    2025年12月2日 科技
    000
  • 谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

    要说最近最郁闷的公司,谷歌肯定算得上一个:自家的 Gemini 1.5 刚刚发布,就被 OpenAI 的 Sora 抢尽了风头,堪称 AI 界的「汪峰」。 具体来说,谷歌这次推出的是用于早期测试的 Gemini 1.5 的第一个版本 ——Gemini 1.5 Pro。它是一种中型多模态模型(涉及文本…

    2025年12月2日 科技
    000
  • Sora无法替代人类!亚马逊工程师断言:实际工作冲突不可能靠AI解决

    这一周,OpenAI视频AI工具Sora一出现,可谓是炸翻了天。 「饭碗保不住了」的恐惧,真实地击中了许多人。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 图片 不过,亚马逊的一位工程师Cameron Gould则认为,其实并不必对AI如…

    2025年12月2日 科技
    000
  • SQLSERVER的排序问题结果不是想要的

    同一个查询的结果集为什麽有时候是按他想要的顺序%ignore_a_1%,有时候又不是,接下来将为你详细解答,感兴趣的你可以参考下哈,希望对你有所帮助 在论坛里经常有人问这样的问题: 同一个查询的结果集为什麽有时候是按他想要的顺序排列,有时候又不是,或者是在SQL2000里是这个顺序,到了SQL200…

    数据库 2025年12月2日
    000
  • 马斯克预测 Grok 5 实现通用人工智能概率 10%且还在上升

    近日,特斯拉与 spacex 首席执行官马斯克在社交平台上发表言论,预测其旗下人工智能公司 xai 正在研发的 grok 5 大型语言模型,有 10% 的可能性实现通用人工智能(agi),并指出这一概率正持续攀升。 上个月,马斯克就曾提出 xAI 或将通过 Grok 5 达成 AGI 的目标,此番言…

    2025年12月2日 科技
    000
  • 如何快速部署DeepSeek| 腾讯云TI部署指南

    一、为什么选择deepseek与创想鸟hai的结合 近年来,随着大模型在多种应用场景中的快速发展,AI工程师们迫切需要一种能够快速、高效且成本低廉的方式来部署和管理模型服务。PHP中文网HAI(高性能AI)平台是一个专为高性能计算和深度学习设计的综合解决方案,提供GPU/CPU资源调度、自动化部署以…

    2025年12月2日 科技
    000

发表回复

登录后才能评论
关注微信