扩散模型如何构建新一代决策智能体?超越自回归,同时生成长序列规划轨迹

设想一下,当你站在房间内,准备向门口走去,你是通过自回归的方式逐步规划路径吗?实际上,你的路径是一次性整体生成的。

最新研究指出,利用扩散模型的规划模块可以同时生成长序列的轨迹规划,更符合人类的决策方式。此外,扩散模型在策略表征和数据合成方面还能为现有的决策智能算法提供更为优化的方案。

来自上海交通大学的团队撰写的综述论文《Diffusion Models for Reinforcement Learning: A Survey》梳理了扩散模型在强化学习相关领域的应用。综述指出现有强化学习算法面临长序列规划误差累积、策略表达能力受限、交互数据不足等挑战,而扩散模型已经展现出解决强化学习问题中的优势,并为应对上述长期以来的挑战带来新的思路。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

扩散模型如何构建新一代决策智能体?超越自回归,同时生成长序列规划轨迹

论文链接:https://arxiv.org/abs/2311.01223

项目地址:https://github.com/apexrl/Diff4RLSurvey

序列猴子开放平台 序列猴子开放平台

具有长序列、多模态、单模型、大数据等特点的超大规模语言模型

序列猴子开放平台 0 查看详情 序列猴子开放平台

该综述对扩散模型在强化学习中的作用进行了分类,总结了不同强化学习场景中扩散模型的成功案例。最后,综述展望了未来利用扩散模型解决强化学习问题的发展方向。

扩散模型如何构建新一代决策智能体?超越自回归,同时生成长序列规划轨迹

图中展示了扩散模型在经典智能体-环境-经验回放池循环中的作用。与传统解决方案相比,扩散模型为系统引入了新的元素,提供了更全面的信息交互和学习机会。通过这种方式,智能体能够更好地适应环境变化,并且优化其决策

扩散模型在强化学习中扮演的角色

文章根据扩散模型在强化学习中扮演角色的不同,分类比较了扩散模型的应用方式和特点。

扩散模型如何构建新一代决策智能体?超越自回归,同时生成长序列规划轨迹

图 2:扩散模型在强化学习中扮演的不同角色。

轨迹规划

强化学习中的规划指通过使用动态模型在想象中做决策,再选择最大化累积奖励的适当动作。规划的过程通常会探索各种动作和状态的序列,从而提升决策的长期效果。在基于模型的强化学习(MBRL)框架中,规划序列通常以自回归方式进行模拟,导致累积误差。扩散模型可以同时生成多步规划序列。现有文章用扩散模型生成的目标非常多样,包括 (s,a,r)、(s,a)、仅有 s、仅有 a 等等。为了在在线评估时生成高奖励的轨迹,许多工作使用了有分类器或无分类器的引导采样技术。

策略表征

扩散规划器更近似传统强化学习中的 MBRL,与之相对,将扩散模型作为策略更类似于无模型强化学习。Diffusion-QL 首先将扩散策略与 Q 学习框架结合。由于扩散模型拟合多模态分布的能力远超传统模型,扩散策略在由多个行为策略采样的多模态数据集中表现良好。扩散策略与普通策略相同,通常以状态作为条件生成动作,同时考虑最大化 Q (s,a) 函数。Diffusion-QL 等方法在扩散模型训练时加上加权的价值函数项,而 CEP 从能量的视角构造加权回归目标,用价值函数作为因子,调整扩散模型学到的动作分布。

数据合成

扩散模型可以作为数据合成器,来缓解离线或在线强化学习中数据稀少的问题。传统强化学习数据增强方法通常只能对原有数据进行小幅扰动,而扩散模型强大的分布拟合能力使其可以直接学习整个数据集的分布,再采样出新的高质量数据。

其他类型

除了以上几类,还有一些零散的工作以其他方式使用扩散模型。例如,DVF 利用扩散模型估计值函数。LDCQ 首先将轨迹编码到隐空间上,再在隐空间上应用扩散模型。PolyGRAD 用扩散模型学习环境动态转移,允许策略和模型交互来提升策略学习效率。

在不同强化学习相关问题中的应用

离线强化学习

扩散模型的引入有助于离线强化学习策略拟合多模态数据分布并扩展了策略的表征能力。Diffuser 首先提出了基于分类器指导的高奖励轨迹生成算法并启发了大量的后续工作。同时,扩散模型也能应用在多任务与多智能体强化学习场景。

扩散模型如何构建新一代决策智能体?超越自回归,同时生成长序列规划轨迹

图 3:Diffuser 轨迹生成过程和模型示意图

在线强化学习

研究者证明扩散模型对在线强化学习中的价值函数、策略也具备优化能力。例如,DIPO 对动作数据重标注并使用扩散模型训练,使策略避免了基于价值引导训练的不稳定性;CPQL 则验证了单步采样扩散模型作为策略能够平衡交互时的探索和利用。

模仿学习

模仿学习通过学习专家演示数据来重建专家行为。扩散模型的应用有助于提高策略表征能力以及学习多样的任务技能。在机器人控制领域,研究发现扩散模型能够在保持时序稳定性的条件下预测闭环动作序列。Diffusion Policy 采用图像输入的扩散模型生成机器人动作序列。实验表明扩散模型能够生成有效闭环动作序列,同时保证时序一致性。

扩散模型如何构建新一代决策智能体?超越自回归,同时生成长序列规划轨迹

图 4:Diffusion Policy 模型示意图

轨迹生成

扩散模型在强化学习中的轨迹生成主要聚焦于人类动作生成以及机器人控制两类任务。扩散模型生成的动作数据或视频数据被用于构建仿真模拟器或训练下游决策模型。UniPi 训练了一个视频生成扩散模型作为通用策略,通过接入不同的逆动力学模型来得到底层控制命令,实现跨具身的机器人控制。

扩散模型如何构建新一代决策智能体?超越自回归,同时生成长序列规划轨迹

图 5:UniPi 决策过程示意图。

数据增强

扩散模型还可以直接拟合原始数据分布,在保持真实性的前提下提供多样的动态扩展数据。例如,SynthER 和 MTDiff-s 通过扩散模型生成了训练任务的完整环境转移信息并将其应用于策略的提升,且结果显示生成数据的多样程度以及准确性都优于历史方法。

扩散模型如何构建新一代决策智能体?超越自回归,同时生成长序列规划轨迹

图 6:MTDiff 进行多任务规划和数据增强的示意图

未来展望

生成式仿真环境

如图 1 所示,现有研究主要利用扩散模型来克服智能体和经验回放池的局限性,利用扩散模型增强仿真环境的研究比较少。Gen2Sim 利用文生图扩散模型在模拟环境中生成多样化的可操作物体来提高机器人精密操作的泛化能力。扩散模型还有可能在仿真环境中生成状态转移函数、奖励函数或多智能体交互中的对手行为。

加入安全约束

通过将安全约束作为模型的采样条件,基于扩散模型的智能体可以做出满足特定约束的决策。扩散模型的引导采样允许通过学习额外的分类器来不断加入新的安全约束,而原模型的参数保持不变,从而节省额外的训练开销。

检索增强生成

检索增强生成技术能够通过访问外部数据集增强模型能力,在大语言模型上得到广泛的应用。通过检索与智能体当前状态相关的轨迹并输入到模型中,基于扩散的决策模型在这些状态下的性能同样可能得到提升。如果检索数据集不断更新,智能体有可能在不重新训练的情况下表现出新的行为。

组合多种技能

与分类器引导或无分类器引导相结合,扩散模型可以组合多种简单技能来完成复杂任务。离线强化学习中的早期结果也表明扩散模型可以共享不同技能之间的知识,从而有可能通过组合不同技能实现零样本迁移或持续学习。

表格

扩散模型如何构建新一代决策智能体?超越自回归,同时生成长序列规划轨迹

图 7:相关论文汇总分类表格。

以上就是扩散模型如何构建新一代决策智能体?超越自回归,同时生成长序列规划轨迹的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/619631.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月11日 05:56:52
下一篇 2025年11月11日 05:57:47

相关推荐

  • 《手办商店模拟器》攻略——游戏下载网址介绍

    《手办商店模拟器》(figure shop simulator)是由 gnome games 打造的一款兼具趣味性与高度细节化的经营模拟类游戏。该游戏的下载方式与其购买渠道紧密相关,例如在 steam 平台购买后,只需进入商品页面,完成购买流程,随后点击“马上开玩”即可启动下载程序。 玩家可通过 S…

    2025年12月6日 游戏教程
    000
  • 外媒盘点7款重制后比原版更差的游戏:还不如玩模拟器!

    外媒thegamer近日发布文章,整理了7款重制版表现不如原作的游戏作品。 《XIII》:漫画风FPS的两度尝试终陷口碑泥潭 初代《XIII》于2003年发售,凭借其独特的美式漫画风格在射击游戏中脱颖而出,尽管评价褒贬不一,但仍拥有忠实拥趸。然而2020年的重制版不仅抛弃了标志性的视觉风格,更因大量…

    2025年12月5日 游戏教程
    000
  • vivo Pad3 Pro 正式登场 跑分离谱还有蓝心大模型

    中关村在线消息:vivo 旗舰新品发布会正在进行中,本场发布会第一个登场的产品是 vivo pad3 pro。新款产品上来就放出王炸,搭载天玑 9300 处理器,跑分超过 210 万,也是行业首个突破 200 万的平板电脑。在游戏测试中,在 90 帧 +hdr 高清画质下,帧率稳定一条直线,性能十分…

    2025年12月5日
    000
  • 老电脑换Linux系统是否会更快,旧电脑不要装Windows!Bodhi Linux系统,小巧强悍,运行更流畅…

    大家好,又见面了,我是你们的朋友全栈君。 你的旧电脑安装win10还好吗? 随着科技的飞速发展,尤其是电脑硬件的不断更新换代,很多人不会轻易更换仅使用了两三年的电脑。 然而,电脑使用时间长了,性能难免会变慢,尤其是在Windows系统功能越来越多,占用资源越来越大的情况下,更换新电脑似乎是必然的选择…

    2025年12月5日 运维
    000
  • js如何操作Web NFC标签 5种NFC读写方法实现近场通信

    web nfc api是实现浏览器直接操作nfc标签的核心。它允许通过javascript与nfc硬件交互,支持读取、写入和格式化标签等功能。使用时需用户授权,并且仅在https环境下运行以确保安全性。目前chrome在android上支持较好,而ios和桌面浏览器支持有限。开发者可通过检测ndef…

    2025年12月5日 web前端
    000
  • 抖音不中奖被限制是什么情况解除?抖音直播中奖不给怎么办

    随着抖音的持续火热,越来越多用户加入这个充满创意与互动的平台。除了观看精彩短视频外,参与直播福袋、抽奖活动也成为大家喜爱的娱乐方式之一。但不少用户反映:自己频繁参与却始终不中奖,甚至账号还被限制了抽奖功能。这到底是怎么回事?又该如何应对和解除限制呢?下面我们一起来深入解析。 一、抖音不中奖并被限制的…

    2025年12月5日
    000
  • ChinaJoy 2024 Evnia 俄罗斯小姐姐吸睛全场!

    chinajoy 2024 已经于 7 月 26 日开展,作为融合了数码新品和科技潮玩的中关村在线展台,人气持续高涨,现场观众络绎不绝。而在众多深色调电竞风的展区中,evnia 凭借清新的蓝白色调脱颖而出,吸引了众多用户驻足。 除此之外,本次 ChinaJoy Evnia 也秉承着 ” …

    2025年12月5日 硬件教程
    000
  • 谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

    大模型做奥赛题游刃有余,简单的数数却屡屡翻车的原因找到了。 谷歌的一项新研究,发现大模型不会数数的原因,并不是简单的 tokenizer 所致,而是没有足够的空间来存储用于计数的向量。 数出一段话中某个单词出现的次数,这样简单的任务可以难倒许多大模型,GPT-4o、Claude 3.5 也无法幸免。…

    2025年12月5日 硬件教程
    000
  • 华硕主板bios设置 看完你也会!

    在组装电脑、升级硬件或排查系统故障时,bios设置是不可或缺的一环。作为主板行业的佼佼者,华硕主板以其直观的界面和丰富的功能广受用户青睐。然而,对于刚接触的新手而言,bios操作可能略显陌生。接下来,就让我们一起看看这份由驱动哥整理的华硕主板bios设置指南吧~ 一、如何进入华硕主板BIOS 1. …

    2025年12月4日
    000
  • 显著超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

    上海交大、上海ai lab和港中文大学的研究人员推出visual-rft(视觉强化微调)开源项目,该项目仅需少量数据即可显著提升视觉语言大模型(lvlm)性能。visual-rft巧妙地将deepseek-r1的基于规则奖励的强化学习方法与openai的强化微调(rft)范式相结合,成功地将这一方法…

    2025年12月3日 硬件教程
    000
  • 李鬼再现! PS商店惊现《黑神话:悟空》山寨游戏

    此前,我们曾报道过一款与%ignore_a_1%热门种田游戏《集合啦!动物森友会》极为相似的山寨作品登陆ps商店,令人惊讶的是,该作在曝光后近一周仍未被下架。如今,ps商店内的仿冒问题似乎正变得愈发严重。 近日,一款名为《悟空:重生传奇》(《Wukong: Legacy Reborn》)的游戏悄然上…

    2025年12月3日
    100
  • 如何用BOM获取用户的设备方向?

    要通过bom获取用户设备方向,需监听deviceorientation事件,该事件提供alpha、beta和gamma三个角度值,分别表示设备在z轴、x轴和y轴上的旋转和倾斜。具体步骤如下:①检查浏览器是否支持deviceorientationevent;②添加事件监听器获取方向数据;③处理数据并应…

    2025年12月3日 web前端
    000
  • 消息称华为首款鸿蒙 PC 明日亮相 较 Windows 有三大优势

    5 月 7 日,有消息透露,华为将在明天(5 月 8 日)上午于深圳举办鸿蒙电脑技术与生态沟通会,届时鸿蒙电脑将正式亮相。会议内容将包括鸿蒙电脑的介绍、体验以及华为自研和第三方生态的详细信息。这将是国内首个从操作系统内核开始全新构建的电脑产品。 早在 3 月的 Pura X 发布会上,余承东就预告了…

    2025年12月3日
    000
  • 超普通修仙模拟器:黄级易筋丹炼制攻略

    超普通修仙%ign%ignore_a_1%re_a_1%中,炼制黄级易筋丹可参考以下步骤。 1、 初始步骤: 2、 进入游戏,点击角色主页的选项。 3、 接着进行第二步: 4、 打开炼制页面,点击炼丹按钮。 ProfilePicture.AI 在线创建自定义头像的工具 67 查看详情 5、 接着进行…

    2025年12月3日 软件教程
    000
  • 蓝蝶模拟器备份方法

    如何备份蓝蝶模拟器的详细步骤如下: 1、启动蓝蝶模拟器,点击“更多”进入设置界面。 2、在设置菜单中,选择“备份还原”功能。 3、进入备份还原页面后,点击“备份”按钮开始操作。 4、选择你希望保存备份文件的位置,确认无误后点击确定。 5、系统弹出提示窗口时,点击“是”继续操作,并耐心等待备份过程完成…

    2025年12月3日 软件教程
    000
  • 2025CUSGA第五届中国大学生游戏开发创作大赛决赛入围名单公布!

    经过严格的评审流程,2025CUSGA第五届中国大学生游戏开发创作大赛决赛入围名单正式出炉! 2025CUSGA第五届中国大学生游戏开发创作大赛由UGDAP大学生游戏开发联盟、CiGA中国独立游戏联盟主办,漕河泾开发区、未来42·趣创游戏孵化器联合主办,GGAC数字艺术平台、Hit Academy作…

    2025年12月3日 游戏教程
    000
  • 曝微软正开发 x64 模拟器 使 Xbox 游戏可在 Windows PC 运行

    5 月 20 日,据相关曝料透露,微软正在开发一项技术,可能将使 Xbox 游戏通过模拟器在 Windows 系统上运行。同时,他还透露 Xbox 应用将迎来类似 Steam 的大屏幕模式。 消息源提到,微软正在开发一款 x64 模拟器,旨在让 Windows PC 能够通过该模拟器运行 Xbox …

    2025年12月3日
    100
  • 《歧路旅人:大陆的霸者》正式公测,网易云游戏免下载秒玩送公测礼包

    《歧路旅人:大陆的霸者》将在5月16日10点正式公测,重现经典jrpg的荣光!但如果你的手机或者电脑内存不足以支持游戏运行,或者手机游玩时会发烫,也不用担心!你可以选择使用网易云游戏来畅玩《歧路旅人:大陆的霸者》。只需一键登录,即可随时上线游戏。网易云游戏同时支持手机(安卓和ios均已支持)、pc(…

    2025年12月3日 行业动态
    000
  • AI 越聪明越不听话!新研究:最强推理模型指令遵循率仅 50%

    如果面前有两个 ai 助手:一个很聪明但经常不守规矩,另一个很听话但不太聪明,你会怎么选? 最近,上海人工智能实验室与香港中文大学的研究团队发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Lar…

    2025年12月3日 硬件教程
    100
  • 卡妙思CAMMUS将参展2024 eSmart,颠覆你的模拟驾驶体验

    由chinajoy主办方汉威信恒主办的第八届国际智能娱乐硬件展览会(esmart)将于2024年7月26日至7月29日在上海新国际博览中心精彩亮相。本届esmart展会旨在积极引领智能娱乐硬件潮流,展示海内外业界最新的“黑科技”产品,带给广大玩家最新、最潮、最酷炫的智能娱乐体验。 此次出席2024 …

    2025年12月3日 行业动态
    000

发表回复

登录后才能评论
关注微信