RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

在一项最新的研究中,来自 uw 和 meta 的研究者提出了一种新的解码算法,将 alphago 采用的蒙特卡洛树搜索算法(monte-carlo tree search, mcts)应用到经过近端策略优化(proximal policy optimization, ppo)训练的 rlhf 语言模型上,大幅提高了模型生成文本的质量。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

PPO-MCTS 算法通过探索与评估若干条候选序列,搜索到更优的解码策略。通过 PPO-MCTS 生成的文本能更好满足任务要求。

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

论文链接:https://arxiv.org/pdf/2309.15028.pdf

面向大众用户发布的 LLM,如 GPT-4/Claude/LLaMA-2-chat,通常使用 RLHF 以向用户的偏好对齐。PPO 已经成为上述模型进行 RLHF 的首选算法,然而在模型部署时,人们往往采用简单的解码算法(例如 top-p 采样)从这些模型生成文本。

本文的作者提出采用一种蒙特卡洛树搜索算法(MCTS)的变体从 PPO 模型中进行解码,并将该方法命名为 PPO-MCTS。该方法依赖于一个价值模型(value model)来指导最优序列的搜索。因为 PPO 本身即是一种演员 – 评论家算法(actor-critic),故而会在训练中产生一个价值模型作为其副产品。

PPO-MCTS 提出利用这个价值模型指导 MCTS 搜索,并通过理论和实验的角度验证了其效用。作者呼吁使用 RLHF 训练模型的研究者和工程人员保存并开源他们的价值模型。

PPO-MCTS 解码算法

为生成一个 token,PPO-MCTS 会执行若干回合的模拟,并逐步构建一棵搜索树。树的节点代表已生成的文本前缀(包括原 prompt),树的边代表新生成的 token。PPO-MCTS 维护一系列树上的统计值:对于每个节点 s,维护一个访问量RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶和一个平均价值RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶;对于每条边RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶,维护一个 Q 值RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

五回合模拟结束时的搜索树。边上的数量代表该边的访问量。

树的构建从一个代表当前 prompt 的根结点开始。每回合的模拟包含以下四步:

1. 选择一个未探索的节点。从根结点出发,根据以下 PUCT 公式选择边向下前进,直到到达一个未探索的节点:

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

该公式偏好拥有高 Q 值与低访问量的子树,因而能较好平衡 exploration 和 exploitation。

2. 展开上一步中选择的节点,并通过 PPO 的策略模型(policy model)计算下一个 token 的先验概率RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

3. 评估该节点的价值。该步使用 PPO 的价值模型进行推断。该节点及其子边上的变量初始化为:

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

4. 回溯并更新树上的统计值。从新探索的节点开始向上回溯直至根结点,并更新路径上的以下变量:

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

每回合模拟的四个步骤:选择、展开、评估、回溯。右下为第 1 回合模拟结束后的搜索树。

若干回合的模拟结束后,使用根结点子边的访问量决定下一个 token,访问量高的 token 被生成的概率更高(这里可以加入温度参数来控制文本多样性)。加入了新 token 的 prompt 作为下一阶段搜索树的根结点。重复这一过程直至生成结束。

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

文心智能体平台 文心智能体平台

百度推出的基于文心大模型的Agent智能体平台,已上架2000+AI智能体

文心智能体平台 0 查看详情 文心智能体平台

第 2、3、4、5 回合模拟结束后的搜索树。

相比于传统的蒙特卡洛树搜索,PPO-MCTS 的创新之处在于:

1. 在选择步骤的 PUCT 中,使用 Q 值RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶替代了原版本中的平均价值RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶。这是因为 PPO 在每个 token 的奖励RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶中含有一个 action-specific 的 KL 正则化项,使策略模型的参数保持在信任区间内。使用 Q 值能够在解码时正确考虑这个正则化项:

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

2. 在评估步骤中,将新探索节点子边的 Q 值初始化为该节点的评估价值(而非原版本 MCTS 中的零初始化)。该更改解决了 PPO-MCTS 退化成完全 exploitation 的问题。

3. 禁止探索 [EOS] token 子树中的节点,以避免未定义的模型行为。

文本生成实验

文章在四个文本生成任务上进行了实验,分别为:控制文本情绪(sentiment steering)、降低文本毒性(toxicity reduction)、用于问答的知识自省(knowledge introspection)、以及通用的人类偏好对齐(helpful and harmless chatbots)。

文章主要将 PPO-MCTS 与以下基线方法进行比较:(1)从 PPO 策略模型采用 top-p 采样生成文本(图中的「PPO」);(2)在 1 的基础上加入 best-of-n 采样(图中的「PPO + best-of-n」)。

文章评测了各方法在每个任务上的目标完成率(goal satisfaction rate)以及文本流畅度(fluency)。

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

左:控制文本情绪;右:降低文本毒性。

在控制文本情绪中,PPO-MCTS 在不损害文本流畅度的情况下,目标完成率比 PPO 基线高出 30 个百分点,在手动评测中的胜率也高出 20 个百分点。在降低文本毒性中,该方法的生成文本的平均毒性比 PPO 基线低 34%,在手动评测中的胜率也高出 30%。同时注意到,在两个任务中,运用 best-of-n 采样并不能有效提高文本质量。

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶

左:用于问答的知识自省;右:通用的人类偏好对齐。

在用于问答的知识自省中,PPO-MCTS 生成的知识之效用比 PPO 基线高出 12%。在通用的人类偏好对齐中,文章使用 HH-RLHF 数据集构建有用且无害的对话模型,在手动评测中胜率高出 PPO 基线 5 个百分点。

最后,文章通过对 PPO-MCTS 算法的分析和消融实验,得出以下结论支持该算法的优势:

PPO 的价值模型比用于 PPO 训练的奖励模型(reward model)在指导搜索方面更加有效。

对于 PPO 训练出的策略和价值模型,MCTS 是一个有效的启发式搜索方法,其效果优于一些其它搜索算法(如 stepwise-value decoding)。

PPO-MCTS 比其它提高奖励的方法(如使用 PPO 进行更多次迭代)具有更好的 reward-fluency tradeoff。

总结来说,本文通过将 PPO 与蒙特卡洛树搜索(MCTS)进行结合,展示了价值模型在指导搜索方面的有效性,并且说明了在模型部署阶段用更多步的启发式搜索换取更高质量生成文本是一条可行之路。

更多方法和实验细节请参阅原论文。封面图片由 DALLE-3 生成。

以上就是RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/474340.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月8日 08:48:33
下一篇 2025年11月8日 08:49:28

相关推荐

  • html的基础 理论

    本篇文章给大家分享的是关于html基础 理论知识,内容很不错,有感兴趣的朋友可以看一下 HTML 语义化 HTML标签的语义化是指:通过使用包含语义的标签(如h1-h6)恰当地表示文档结构 css命名的语义化是指:为html标签添加有意义的class 为什么需要语义化: 立即学习“前端免费学习笔记(…

    好文分享 2025年12月21日
    000
  • 人工智能工具市场

    AIprophetic.com 网站文章列表: 2025年: 2025-01-24: 人工智能工具市场概览 (https://www.php.cn/link/1c52486ff0b2a44fbfefeb15d21f53ae)2025-01-24: ChatGPT 故障排除及替代方案 (https:/…

    2025年12月19日
    000
  • 代码异味 – 非命令式函数名称

    清晰的函数命名:避免歧义,提升代码可读性 简而言之:含糊不清的函数名会隐藏其功能,令读者困惑。请使用具有描述性、面向动作的名称。 问题 函数用途不明确认知负担增加上下文误导可读性降低协作困难功能隐藏 解决方案 使用面向动作的动词使用描述性名称反映函数目的避免通用术语提供有意义的上下文明确表达单一职责…

    2025年12月19日 好文分享
    000
  • 克劳德·十四行诗 vs GPT-4o

    本案例研究对claude 3.5 sonnet和gpt-4o两种人工智能模型进行了深入比较,涵盖性能、定价和具体应用场景,并结合社区反馈、基准测试和实际使用经验。 Claude 3.5 Sonnet:智能且人性化 Claude 3.5 Sonnet是什么? Claude 3.5 Sonnet是Ant…

    2025年12月19日 好文分享
    000
  • 轨道:太阳系之旅

    去年十月,Masons团队参与了2024年NASA Space Apps Cairo黑客马拉松,并开发了一个令人振奋的项目——Orbit。Orbit是一个交互式3D网页应用,能够模拟太阳系并追踪近地天体(NEO)。它基于Next.js、Three.js和Golang后端构建,旨在提供宇宙的实时信息,…

    2025年12月19日
    000
  • 自写 Lang 图状态

    第一人工智能响应: 输出:感谢您伸出援手,.我很乐意为您提供帮助,但我想确保我完全理解您的需求。您能否提供有关您正在寻找的内容的更多详细信息?您分享的信息越多,我就越能提供帮助!我很乐意尽我所能地帮助你。您想进一步探索某个特定领域吗?您的意见将帮助我根据您的具体需求定制我的帮助。我完全致力于让您的体…

    2025年12月19日
    000
  • lambda演算的数学

    你认为人类发现了还是发明了计算? 我倾向于发现,因为图灵机和丘奇的 Lambda 微积分在 1936 年彼此独立地形式化,但两者也都具有普遍的表达能力(允许你计算一切)。非常不同,但 100% 等效。 我不是在谈论硬件计算机的发明,由于电子电路及其晶体管,它可以采取各种形式并普遍实现这些概念。我在这…

    2025年12月19日
    100
  • 基于Schema文件实现无数据库连接的SQL语句生成

    本文探讨了在不直接连接数据库的情况下,如何利用数据库schema文件生成sql语句的方法。我们将重点介绍通过提供详细的数据库概览信息给大型语言模型(llm),实现基于schema的sql查询生成,从而避免实际数据库连接,提升安全性和灵活性。内容涵盖了如何准备schema信息以及其在llm驱动的sql…

    2025年12月14日
    000
  • 如何优化ChromaDB检索响应的完整性

    在使用Langchain结合ChromaDB构建基于文档的问答系统时,用户有时会遇到检索到的响应不完整的情况,尤其是在处理大型或复杂PDF文档时。这通常不是ChromaDB本身的问题,而是文档处理、检索策略或问答链配置不当导致的。本文将详细介绍如何通过优化文档分块、调整检索器参数以及理解问答链机制来…

    2025年12月14日
    000
  • Copilot如何高效调用大型语言模型并避免资源浪费?

    Copilot:高效利用大型语言模型的秘诀 Copilot强大的代码补全和智能提示功能,得益于其对大型语言模型(如Claude、Gemini和GPT)的巧妙调用。本文将揭秘Copilot如何高效地与这些模型交互,避免资源过度消耗。 精细化的提示词策略 Copilot并非简单地将所有信息一股脑地塞给模…

    2025年12月13日
    000
  • python中的LLM函数逐步指南

    本指南将指导您如何使用 Python 和 Claude 实现函数调用,并提供示例和最佳实践。通过函数调用,Claude 可以以结构化的方式与外部函数和工具交互。 先决条件 开始之前,您需要: Python 3.7 或更高版本anthropic Python 包Anthropic 提供的有效 API …

    2025年12月13日
    100
  • 将待办事项列表设置为Windows壁纸(由SONNET编码)

    amoy-todo-wallpaper >将待办事项列表设置为windows壁纸。 这是一个由claude-sonnet-3.5编码的python程序,并进行了较小的修订。 github:https://github.com/casualwriter/amoy-todo-wallpaper 如…

    2025年12月13日
    100
  • 开源LLMS应该得到代码,而不是提示! (DSPY,瞧!)

    DSPY:将提示工程转变为提示编程的革命性框架 大型语言模型 (llm) 时代,新模型层出不穷。然而,充分发挥 llm 的潜力往往依赖于繁琐易错的提示工程。dspy 应运而生,它是一个开源框架,彻底改变了我们与 llm 交互的方式。dspy 将提示视为可训练、模块化的组件,而非静态文本,并通过编程方…

    2025年12月13日 好文分享
    000
  • 使用 Anthropic 的 Claude Sonnet 生成报告

    Pilar,一家巴西房地产科技公司,联合创始人兼首席技术官Raphael分享了利用Anthropic Claude 3.5 Sonnet生成报告的经验,并比较了两种不同方法的优劣。Pilar为房地产经纪商提供基于低成功费模式的软件和服务,其20人的技术团队不断开发创新产品,例如全新的房地产门户网站P…

    2025年12月13日
    000
  • 使用 AWS Bedrock 部署 AI 交通拥堵预测器:完整概述

    本文将指导您如何使用 AWS Bedrock 部署一个 AI 交通拥堵预测器,实现实时交通状况预测。AWS Bedrock 提供全托管的基础模型服务,非常适合 AI 应用部署。我们将涵盖从环境准备到最终测试的完整流程。 先决条件: 一个具有相应权限的 AWS 账户 (建议使用免费套餐)。Python…

    2025年12月13日
    000
  • AISuite:简化跨多个 LLM 提供商的 GenAI 集成

    生成式人工智能 (gen ai) 正在凭借其创造力、解决问题和自动化的潜力重塑行业。然而,由于 api 和配置分散,开发人员在集成来自不同提供商的大型语言模型 (llm) 时经常面临重大挑战。互操作性的缺乏使工作流程变得复杂,延长了开发时间,并阻碍了有效的 gen ai 应用程序的创建。 为了解决这…

    2025年12月13日
    000
  • 使用 Amazon Bedrock Converse API 节省时间!

    通过 bedrock,您可以访问一系列不同的大型语言模型(例如 claude、mistral、llama 和 amazon titan),并且随时都有新版本可用。 有选择固然很棒,但必须为每个模型编写不同的请求代码却很痛苦。 这就是为什么在比较不同基础模型的输出时,amazon bedrock co…

    2025年12月13日 好文分享
    000
  • 自由职业者神器 PHP加ChatGPT自动回复客户邮件

    答案:PHP结合ChatGPT可实现客户邮件自动回复,提升自由职业者效率。通过IMAP收取邮件,调用OpenAI API生成专业回复,再通过SMTP自动发送,核心在于合理设计Prompt以提升回复质量,并配合定时任务执行。需注意垃圾邮件、信息泄露、上下文理解偏差、API安全与调用成本等风险。建议结合…

    2025年12月11日 好文分享
    100
  • 代码气味 – 未解析的元标签

    不完整的元标签是不专业的 tl;dr:不完整或空元标记会破坏功能和用户体验。 问题 标签出现在输出中电子邮件文本包含人类可读文本之间的占位符丢失的占位符会让用户感到困惑网站呈现奇怪的字符空值会触发错误潜在的安全注入漏洞 解决方案 验证元标记尽早断言完整性快速失败避免空值抛出有意义的异常自动元验证 语…

    2025年12月11日 好文分享
    000
  • 构建了一个将面试准备过程变成博客文章的功能

    我开发了一个工具,利用Claude 3生成PHP面试准备资源,并将其自动转换为博客文章。此工具涵盖了面试中可能遇到的问题、答案和提示,帮助求职者更好地准备面试。 该工具的输出示例可见于:https://www.php.cn/link/4d1d732a3fd7efdacb4b26a0ca945eba …

    2025年12月10日
    000

发表回复

登录后才能评论
关注微信