扩散模型如何构建新一代决策智能体？超越自回归，同时生成长序列规划轨迹

程序猿 • 2025年11月11日 05:57:27 • 科技 • 阅读 1

设想一下，当你站在房间内，准备向门口走去，你是通过自回归的方式逐步规划路径吗？实际上，你的路径是一次性整体生成的。

最新研究指出，利用扩散模型的规划模块可以同时生成长序列的轨迹规划，更符合人类的决策方式。此外，扩散模型在策略表征和数据合成方面还能为现有的决策智能算法提供更为优化的方案。

来自上海交通大学的团队撰写的综述论文《Diffusion Models for Reinforcement Learning: A Survey》梳理了扩散模型在强化学习相关领域的应用。综述指出现有强化学习算法面临长序列规划误差累积、策略表达能力受限、交互数据不足等挑战，而扩散模型已经展现出解决强化学习问题中的优势，并为应对上述长期以来的挑战带来新的思路。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文链接：https://arxiv.org/abs/2311.01223

项目地址：https://github.com/apexrl/Diff4RLSurvey

序列猴子开放平台

具有长序列、多模态、单模型、大数据等特点的超大规模语言模型

0 查看详情

该综述对扩散模型在强化学习中的作用进行了分类，总结了不同强化学习场景中扩散模型的成功案例。最后，综述展望了未来利用扩散模型解决强化学习问题的发展方向。

图中展示了扩散模型在经典智能体-环境-经验回放池循环中的作用。与传统解决方案相比，扩散模型为系统引入了新的元素，提供了更全面的信息交互和学习机会。通过这种方式，智能体能够更好地适应环境变化，并且优化其决策

扩散模型在强化学习中扮演的角色

文章根据扩散模型在强化学习中扮演角色的不同，分类比较了扩散模型的应用方式和特点。

图 2：扩散模型在强化学习中扮演的不同角色。

轨迹规划

强化学习中的规划指通过使用动态模型在想象中做决策，再选择最大化累积奖励的适当动作。规划的过程通常会探索各种动作和状态的序列，从而提升决策的长期效果。在基于模型的强化学习（MBRL）框架中，规划序列通常以自回归方式进行模拟，导致累积误差。扩散模型可以同时生成多步规划序列。现有文章用扩散模型生成的目标非常多样，包括 (s,a,r)、(s,a)、仅有 s、仅有 a 等等。为了在在线评估时生成高奖励的轨迹，许多工作使用了有分类器或无分类器的引导采样技术。

策略表征

扩散规划器更近似传统强化学习中的 MBRL，与之相对，将扩散模型作为策略更类似于无模型强化学习。Diffusion-QL 首先将扩散策略与 Q 学习框架结合。由于扩散模型拟合多模态分布的能力远超传统模型，扩散策略在由多个行为策略采样的多模态数据集中表现良好。扩散策略与普通策略相同，通常以状态作为条件生成动作，同时考虑最大化 Q (s,a) 函数。Diffusion-QL 等方法在扩散模型训练时加上加权的价值函数项，而 CEP 从能量的视角构造加权回归目标，用价值函数作为因子，调整扩散模型学到的动作分布。

数据合成

扩散模型可以作为数据合成器，来缓解离线或在线强化学习中数据稀少的问题。传统强化学习数据增强方法通常只能对原有数据进行小幅扰动，而扩散模型强大的分布拟合能力使其可以直接学习整个数据集的分布，再采样出新的高质量数据。

其他类型

除了以上几类，还有一些零散的工作以其他方式使用扩散模型。例如，DVF 利用扩散模型估计值函数。LDCQ 首先将轨迹编码到隐空间上，再在隐空间上应用扩散模型。PolyGRAD 用扩散模型学习环境动态转移，允许策略和模型交互来提升策略学习效率。

在不同强化学习相关问题中的应用

离线强化学习

扩散模型的引入有助于离线强化学习策略拟合多模态数据分布并扩展了策略的表征能力。Diffuser 首先提出了基于分类器指导的高奖励轨迹生成算法并启发了大量的后续工作。同时，扩散模型也能应用在多任务与多智能体强化学习场景。

图 3：Diffuser 轨迹生成过程和模型示意图

在线强化学习

研究者证明扩散模型对在线强化学习中的价值函数、策略也具备优化能力。例如，DIPO 对动作数据重标注并使用扩散模型训练，使策略避免了基于价值引导训练的不稳定性；CPQL 则验证了单步采样扩散模型作为策略能够平衡交互时的探索和利用。

模仿学习

模仿学习通过学习专家演示数据来重建专家行为。扩散模型的应用有助于提高策略表征能力以及学习多样的任务技能。在机器人控制领域，研究发现扩散模型能够在保持时序稳定性的条件下预测闭环动作序列。Diffusion Policy 采用图像输入的扩散模型生成机器人动作序列。实验表明扩散模型能够生成有效闭环动作序列，同时保证时序一致性。

图 4：Diffusion Policy 模型示意图

轨迹生成

扩散模型在强化学习中的轨迹生成主要聚焦于人类动作生成以及机器人控制两类任务。扩散模型生成的动作数据或视频数据被用于构建仿真模拟器或训练下游决策模型。UniPi 训练了一个视频生成扩散模型作为通用策略，通过接入不同的逆动力学模型来得到底层控制命令，实现跨具身的机器人控制。

图 5：UniPi 决策过程示意图。

数据增强

扩散模型还可以直接拟合原始数据分布，在保持真实性的前提下提供多样的动态扩展数据。例如，SynthER 和 MTDiff-s 通过扩散模型生成了训练任务的完整环境转移信息并将其应用于策略的提升，且结果显示生成数据的多样程度以及准确性都优于历史方法。

图 6：MTDiff 进行多任务规划和数据增强的示意图

未来展望

生成式仿真环境

如图 1 所示，现有研究主要利用扩散模型来克服智能体和经验回放池的局限性，利用扩散模型增强仿真环境的研究比较少。Gen2Sim 利用文生图扩散模型在模拟环境中生成多样化的可操作物体来提高机器人精密操作的泛化能力。扩散模型还有可能在仿真环境中生成状态转移函数、奖励函数或多智能体交互中的对手行为。

加入安全约束

通过将安全约束作为模型的采样条件，基于扩散模型的智能体可以做出满足特定约束的决策。扩散模型的引导采样允许通过学习额外的分类器来不断加入新的安全约束，而原模型的参数保持不变，从而节省额外的训练开销。

检索增强生成

检索增强生成技术能够通过访问外部数据集增强模型能力，在大语言模型上得到广泛的应用。通过检索与智能体当前状态相关的轨迹并输入到模型中，基于扩散的决策模型在这些状态下的性能同样可能得到提升。如果检索数据集不断更新，智能体有可能在不重新训练的情况下表现出新的行为。

组合多种技能

与分类器引导或无分类器引导相结合，扩散模型可以组合多种简单技能来完成复杂任务。离线强化学习中的早期结果也表明扩散模型可以共享不同技能之间的知识，从而有可能通过组合不同技能实现零样本迁移或持续学习。

表格

图 7：相关论文汇总分类表格。

以上就是扩散模型如何构建新一代决策智能体？超越自回归，同时生成长序列规划轨迹的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/619631.html

模型模拟器论文

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

基于DiT，支持4K图像生成，华为诺亚0.6B文生图模型PixArt-Σ来了

上一篇 2025年11月11日 05:56:52

告别繁琐的手动调参，Optuna助您轻松实现超参数优化！

下一篇 2025年11月11日 05:57:47

好文分享

构建模拟：从头开始的实时交易模拟器

简介嘿，开发社区！我很高兴分享我的业余项目 Simul8or – 一个实时日间交易模拟器，旨在为用户提供一个无风险的环境来练习交易策略。该项目 100% 构建在 ASP.NET WebForms、C#、JavaScript、CSS 和 SQL Server 技术堆栈上，没有外部库或框架。从头开始构…

程序猿
2025年12月24日
3000
好文分享

HTML、CSS 和 JavaScript 项目

欢迎来到我的 html、css 和 javascript 项目集合！这篇博文全面概述了我创建的各种项目，展示了 web 开发的不同方面。每个项目都可以在自己的存储库中找到，其中包含您需要探索和学习的所有代码。目录简介项目概况开始使用贡献作者介绍作为一名 web 开发人员，我喜欢从事各种项目，…

程序猿
2025年12月24日
0000
好文分享

浏览 CSS 响应式设计

前端开发人员的一项主要职责是创建响应式设计布局。这也是他们的挑战之一。您可能和我一样相信，在使用 html/css 和 javascript 进行项目时“是时候开始构建响应式设计了”，或者您可能会发现很难让您的设计响应式。无论什么情况，让我们开始学习如何导航 css 响应式设计，sailor。 …

程序猿
2025年12月24日
0000
好文分享

如何克服响应式布局的不足之处

如何克服响应式布局的不足之处随着移动设备的普及和互联网的发展，响应式布局成为了现代网页设计中必不可少的一部分。通过响应式设计，网页可以根据用户所使用的设备自动调整布局，使用户在不同的屏幕尺寸下都能获得良好的浏览体验。然而，尽管响应式布局在提供多屏幕适应性方面做得相当出色，但仍然存在一些不足之处。…

程序猿
2025年12月24日
0000
好文分享

响应式布局优化移动设备适配的策略与实用技巧

响应式布局在移动设备上的适配策略与最佳实践随着移动设备的普及和使用频率的增加，响应式布局逐渐成为网页设计的主流趋势。在移动设备上实现良好的用户体验，需要采用适配策略和最佳实践来确保网页能够在不同尺寸的屏幕上自适应地显示。一、视口设置为了适应不同尺寸的移动设备屏幕，需要正确设置视口。在网页的头部添…

程序猿
2025年12月24日
0000
好文分享

掌握响应式布局网站的关键要点

了解响应式布局网站的必备知识随着移动设备的普及和使用率的增加，人们越来越多地使用手机和平板电脑来浏览网页。为了让网站在不同尺寸的屏幕上都能够有良好的显示效果，响应式布局逐渐成为了现代网页设计的一种重要趋势。本文将介绍响应式布局网站的必备知识，帮助读者更好地了解和运用响应式布局。一、响应式布局的定…

程序猿
2025年12月24日
2000
好文分享

怎么保证html在平板上运行_保障平板运行html的方法【技巧】

首先需设置视口元标签，，确保页面正确缩放；接着使用媒体查询和弹性布局适配768px至1024px屏幕，如@media (min-width: 768px) and (max-width: 1024px) { .container { width: 90%; margin: 0 auto; } img…

程序猿
2025年12月23日
0000
好文分享

studio怎么运行html_studio运行html步骤【指南】

在Android Studio中运行HTML文件需将其放入assets目录，并通过WebView加载。首先创建assets文件夹并放入HTML文件，然后在布局中添加WebView组件，接着在Activity中启用JavaScript并使用loadUrl加载本地HTML文件，若HTML涉及网络请求还需…

程序猿
2025年12月23日
0000
好文分享

在React Native WebView中保持键盘开启状态的策略

本文探讨了在react native的webview组件中，当输入框失去焦点时如何避免虚拟键盘自动关闭的问题。核心解决方案在于优化html中的事件处理逻辑，通过使用`onchange`事件而非`oninput`，并直接调用目标输入框的`focus()`方法，确保焦点无缝转移，从而维持键盘的持续显示，…

程序猿
2025年12月23日
0000
好文分享

React Native WebView中输入框焦点切换时保持键盘可见的实现

本文探讨在react native webview中，当输入框失去焦点时键盘自动关闭的问题。通过将输入框的事件从`oninput`改为`onchange`，并结合`document.getelementbyid(‘target’).focus()`方法，可以在输入框之间平滑切…

程序猿
2025年12月23日
0000
好文分享

构建响应式网站：利用CSS Grid与媒体查询优化移动端布局

本文旨在解决网站在移动设备上显示不佳的问题，特别是当固定尺寸布局和简单的width: 100%无法奏效时。我们将深入探讨如何利用css grid创建灵活的二维布局，并结合媒体查询（media queries）为不同屏幕尺寸定制样式，从而实现真正适应多设备的响应式设计。响应式设计的挑战与误区当开发…

程序猿
2025年12月23日
0000
好文分享

构建响应式搜索栏：使用Flexbox与媒体查询优化移动体验

本文将详细介绍如何利用css flexbox布局和媒体查询技术，构建一个在不同设备上都能良好展示的响应式搜索栏。通过优化布局和调整元素尺寸，确保搜索按钮在移动端不会出现错位或下沉，提升用户体验。在现代网页设计中，响应式布局是不可或缺的一环，它确保了网站在桌面、平板和手机等不同尺寸屏幕上都能提供一致…

程序猿
2025年12月23日
0000
好文分享

构建响应式搜索栏：Flexbox布局与媒体查询实践

本教程详细介绍了如何利用CSS的Flexbox布局和媒体查询技术，创建一个在桌面和移动设备上都能优雅显示并保持良好用户体验的响应式搜索栏。通过设置Flexbox实现元素水平排列，并结合媒体查询调整小屏幕下的输入框宽度，有效解决了移动端布局错乱的问题，确保搜索功能在不同尺寸设备上均能正常工作。在现代…

程序猿
2025年12月23日
0000
响应式CSS Grid布局：优化网格项在小屏幕下的堆叠与宽度适配

本文详细介绍了如何使用css媒体查询（`@media`）来解决css grid布局中网格项在小屏幕下无法自动堆叠或宽度适配的问题。通过动态调整`grid-template-columns`属性和重置特定网格项的定位，确保内容在不同屏幕尺寸下保持良好的可读性和布局。文章包含示例代码、关键注意事项和最佳…

程序猿
2025年12月23日 • 好文分享
0000
解决移动端滚动问题的overflow属性应用指南

本文旨在解决移动端网页内容溢出时滚动条不显示或内容被导航栏遮挡的问题。通过深入分析`position`属性与滚动机制的交互，并提供具体的react/grommet示例，详细阐述如何利用css的`overflow: auto`或`overflowy: auto`属性，结合`webkitoverflow…

程序猿
2025年12月23日 • 好文分享
0000
好文分享

HTML布局响应式测试怎么进行_HTML响应式布局效果的测试方法

使用开发者工具模拟设备、在真实设备测试、借助在线工具验证，并检查CSS布局结构，确保页面适配不同屏幕尺寸。响应式布局是现代网页开发中的关键环节，确保网站在不同设备（如手机、平板、桌面电脑）上都能正常显示。测试HTML响应式布局的效果，需要从多个维度进行验证，以下是常用的测试方法。使用浏览器开发者…

程序猿
2025年12月23日
0000
好文分享

响应式CSS Grid与Flexbox布局：解决表单输入项不自适应问题

本文深入探讨了在使用css grid和flexbox构建响应式布局时，表单输入项在小屏幕下无法自适应的问题。通过分析固定高度、flex容器方向等常见误区，提供了基于`min-height`、`flex-direction: row`和`flex`属性的优化方案，旨在帮助开发者构建在不同视口下都能保持…

程序猿
2025年12月23日
1000
好文分享

响应式图片焦点控制：利用CSS媒体查询优化移动端视觉体验

在移动设备上，图片经常因缩放而导致焦点偏离，影响用户体验。本文将详细介绍如何利用css的`object-fit`和`object-position`属性，结合媒体查询（media queries），精确控制图片在不同屏幕尺寸下的显示区域和焦点位置，从而无需为移动端准备单独图片，实现图片内容的智能适配…

程序猿
2025年12月23日
0000
好文分享

html如何居下_HTML元素底部对齐（position:fixed/bottom）实现方法

最直接的方法是使用CSS的position: fixed配合bottom: 0，使元素固定在视口底部；若需在父容器内对齐，则用position: absolute和bottom: 0，但父容器需有定位属性。 HTML元素要居下，最直接且常用的方法是利用CSS的position: fixed属性配合b…

程序猿
2025年12月23日
0000
好文分享

解决AdSense响应式广告在移动端布局异常：从容器宽度到代码优化

本文深入探讨AdSense响应式广告在移动设备上出现布局错位，特别是当其父级容器或祖先元素采用`width: auto`或通过JavaScript动态调整宽度时的问题。我们将分析问题根源，并提供三种核心解决方案：使用固定尺寸广告单元、优化父级容器的CSS布局，以及考虑`data-ad-format=…

程序猿
2025年12月23日
0000