从数据增强的隐藏作用出发，揭示视觉强化学习可塑性损失的独特机制

程序猿 • 2025年11月26日 13:52:37 • 科技 • 阅读 0

aixiv专栏是本站发布学术、技术内容的栏目。过去数年，本站aixiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

Sutton 等研究人员近期在《Nature》上发表的研究《Loss of Plasticity in Deep Continual Learning》揭示了一个重要发现：在持续学习环境中，标准深度学习方法的表现竟不及浅层网络。研究指出，这一现象的主要原因是 “可塑性损失”（Plasticity Loss）：深度神经网络在面对非平稳的训练目标持续更新时，会逐渐丧失从新数据中学习的能力。

深度强化学习任务中的神经网络实际上面临着更为严峻的可塑性损失问题。这源于强化学习智能体必须通过与环境的持续互动来不断调整其策略，使得非平稳的数据流和优化目标成为深度强化学习范式中的固有特征。值得注意的是，即使在单任务强化学习中，在线数据收集和策略更新也会导致数据分布和优化目标持续动态变化。因此，严重的可塑性损失已然成为制约深度强化学习算法样本利用效率的关键瓶颈。

要突破视觉强化学习样本利用效率低下这一瓶颈，关键在于深入解构深度强化学习中神经网络可塑性损失的细节，从而明确问题的根源。针对这一挑战，来自清华大学、悉尼大学、华盛顿大学、京东探索研究院和南洋理工大学的研究人员展开了一项全面而深入的研究。他们选取视觉强化学习任务作为深度强化学习的典型代表，创新性地从数据、模块和训练阶段三个关键角度对神经网络的可塑性损失特征进行分析。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文链接：https://arxiv.org/abs/2310.07418

代码链接：https://github.com/Guozheng-Ma/Adaptive-Replay-Ratio

这项研究不仅解释了视觉强化学习中一些此前难以理解的反常现象，还揭示了一系列与直觉相悖的有趣结论。该研究成果已在 ICLR 2024 上发表，本文将对其中一系列引人深思的发现进行进一步梳理和总结。其中最核心的要点可概括如下：

1. 揭示了数据增强的作用机制：简单的数据增强能够显著提升视觉强化学习的样本利用效率，其效果令人瞩目。在自动驾驶任务 CARLA 中，引入数据增强将性能提高至基准的 235%。更令人惊讶的是，在 DeepMind Control suite 的 9 种机器人控制任务中，数据增强平均将性能提升至基准的 431%。然而，尽管这些惊人的效果早已被观察到，但数据增强为何能带来如此显著的性能提升一直是一个未解之谜。该研究的突破性发现揭示了视觉强化学习中数据增强背后的作用机制：它能直接有效地缓解训练过程中的可塑性损失。

2. 明确了样本利用效率的关键瓶颈：过去多年，学界普遍认为导致视觉强化学习样本利用效率低下的主要瓶颈在于训练视觉表征器的难度。然而，这项研究通过一系列巧妙的实验，颠覆了这一长期以来的观点。研究结果表明，目前限制视觉强化学习样本利用效率的关键因素并非编码器（Encoder）的视觉表征能力，而是评价者网络（Critic）的可塑性损失。

3. 突出了训练早期干预的重要性：可塑性损失指的是模型的学习能力随着训练不断减弱的现象。然而，不同训练阶段对于避免灾难性可塑性损失的作用是否有所不同，这一问题此前一直未被深入探索。该研究填补了这一空白，揭示了一个关键发现：训练早期对 Critic 网络可塑性的干预极为重要：若未能在训练早期及时将网络可塑性恢复到高水平，将会导致训练后期难以逆转的灾难性可塑性损失。

从视觉强化学习中的数据增强开始

数据增强已成为实现高样本利用效率的视觉强化学习算法中不可或缺的组件。与监督学习中数据增强仅带来渐进式改进不同，在多种视觉强化学习任务中，数据增强对算法效果起到了决定性作用。如上图所示，在不使用数据增强的情况下，算法几乎无法训练出有效的策略。相反，仅仅引入对输入观察图像的简单数据增强，就能在不修改算法其他部分的前提下，实现一个具有高渐进效果和样本效率的视觉强化学习算法。

这种显著的提升显然无法用传统视觉任务中数据增强的作用机理来解释。更可能的是，数据增强有效缓解或解决了强化学习中的一个关键瓶颈。在没有数据增强的情况下，智能体的性能在短暂上升后几乎停滞，这一现象与智能体遭受可塑性损失，无法从新收集的数据中学习的后果非常吻合。基于这一观察，该研究设计了巧妙的实验，旨在验证数据增强的背后作用机制是否确实在于有效缓解了灾难性的可塑性损失。

Reset 是一种简单而直接的方法，通过周期性地重新初始化智能体网络最后几层全连接层来恢复神经网络的可塑性。在这项研究中，研究人员巧妙地将 Reset 作为一种诊断工具，用来判断使用与不使用数据增强时网络的可塑性损失情况。实验结果揭示了以下关键发现：

在不使用数据增强的情况下，实施 Reset 均能够带来显著的性能提升。这明确地表明，在缺乏数据增强的训练过程中，网络确实经历了严重的可塑性损失。

但当引入数据增强后，Reset 的实施只带来轻微的改善，有时甚至会导致性能下降。这一结果表明，只通过数据增强就能有效提升智能体的可塑性。

这一巧妙的实验证明数据增强能够非常显著地缓解视觉强化学习训练过程中的可塑性损失，从而解释了为什么数据增强对于提高样本利用效率如此关键。通过有效维持神经网络的可塑性，数据增强实际上延长了神经网络的有效学习期，使其能够更充分地利用每一个训练样本。

研究还对比了数据增强和其他先前提出的用来缓解可塑性损失的方法。实验结果再次证明，作为一种从数据角度出发（data-centric）的方法，数据增强在缓解可塑性损失方面展现出卓越的效果，相对于目前已有的其他方案具有明显优势。

解构视觉强化学习不同模块中可塑性损失的不同影响

相较于基于状态向量的强化学习任务，视觉强化学习一直面临着样本利用效率严重低下的困扰。近年来，缩小基于图像和基于状态向量的强化学习在样本利用效率上的差距已成为整个视觉强化学习社区关注的重点。这两种学习范式的关键区别在于：视觉强化学习需要在进行策略优化的同时进行表征学习。基于这一认识，大量研究致力于通过改进视觉表征学习来提升视觉强化学习的样本利用效率。常见的方法包括添加额外的辅助表征任务，或使用预训练的视觉编码器（Encoder）。但是，高维视觉表征真的是影响视觉强化学习样本利用效率的关键瓶颈吗？

该研究通过一个巧妙的实验回答了这个问题。研究者采用了 PIE-G 提出的预训练编码器方案，并测试了数据增强对训练过程的影响。这个实验设计有两个关键点：

使用在 ImageNet 上预训练的编码器，确保了足够的视觉表征能力。

在整个训练过程中保持编码器不变，排除了数据增强对编码器的直接影响。

研究假设：如果表征学习是当前限制样本利用效率的关键，或者可塑性损失主要发生在编码器，那么数据增强的使用与否不应显著影响算法的训练过程。

爱派AiPy

融合LLM与Python生态的开源AI智能体

1 查看详情

然而，实验结果令人惊讶：

数据增强对基于预训练编码器的视觉强化学习的样本利用效率产生了显著影响。

在不使用数据增强的情况下，即使是简单的 Walker Walk 任务，智能体的性能在训练后期也明显停滞，表现出严重的可塑性损失。

这一发现具有重要意义：即使有了良好的视觉表征，视觉强化学习仍然存在严重的可塑性损失。这表明对于当前的视觉强化学习算法，高维视觉的表征已经不构成影响样本利用效率的关键瓶颈。更为关键的是，该实验证明了严重的可塑性损失并非发生在编码器模块，而应该是存在于 Actor 或 Critic 中。

研究者进一步使用可塑性注入（Plasticity Injection）作为可靠的诊断工具来最终判定灾难性的可塑性损失究竟发生在 Actor 还是 Critic 中。不同于 Reset，可塑性注入在恢复网络可塑性的同时不会破坏网络现有知识，因此不会出现明显的性能波动。这使得可塑性注入更适合用来作为判断特定网络模块是否发生灾难性可塑性损失的诊断工具。

实验结果揭示了两个关键发现：

在使用数据增强的情况下，对 Actor 或者 Critic 实施可塑性注入都不会明显影响智能体的训练过程。这表明在 Walker Run 任务中，仅仅通过使用数据增强就足以维持训练所需的网络可塑性。

在初始 100 万步训练中不使用数据增强的情况下，对 Critic 实施可塑性注入会导致性能显著提升。相反，对 Actor 进行可塑性注入也并不能使智能体恢复正常训练。这一结果充分证明，Critic 严重的可塑性损失是造成视觉强化学习样本利用效率严重低下的关键原因。

分析视觉强化学习不同训练阶段中可塑性损失的不同性质

最后，该研究设计了一个巧妙的实验，通过在训练过程中的不同时间点开启或关闭数据增强，来探究数据增强在不同训练阶段对解决可塑性损失的影响。具体来说，他们在训练进行到三分之一时改变数据增强的使用状态，观察其对训练效果的影响。这个实验揭示了两个重要发现：

在 Critic 的可塑性已经恢复后停止使用数据增强，并不会明显影响训练效率。这表明在训练的后期，不需要采取特定干预来维持可塑性。

当可塑性已经显著丧失，且未能在早期阶段及时干预的情况下，后期引入数据增强也无法使智能体恢复正常的训练。这一观察强调了在训练早期维持可塑性的至关重要性，否则，这种损失将变得无法挽回。

这一实验不仅证实了数据增强在训练早期阶段的关键作用，更重要的是，它揭示了可塑性损失的不可逆特性。实验结果表明，如果在训练早期没有通过有效干预（如数据增强）使 Critic 网络的可塑性恢复到较高水平，就会导致不可逆的灾难性可塑性损失。

在训练的初始阶段，由于收集到的经验数据质量低且数量有限，通过自举学习所得出的训练目标（Target Q Value）表现出高度的非平稳性，并显著偏离真实的 Q 值。这种严重的非平稳性导致 Critic 的可塑性迅速下降，使其失去从新收集数据中继续优化策略的能力。随之，智能体持续收集低质量的数据，形成了一个恶性循环。这一连锁反应最终阻碍了智能体获得有效策略，导致训练早期阶段出现灾难性的可塑性损失。

然而，训练过程的后期呈现出不同的特征：尽管 Critic 的可塑性在训练早期恢复到高水平后仍然会缓慢下降，但这种下降可以被理解为逐步逼近当前任务最优值函数的过程。对于不需要智能体保持持续学习能力的单任务视觉强化学习而言，这种后期的可塑性损失被视为良性的。

这种在训练不同阶段所观察到的可塑性变化差异，为解决视觉强化学习中的可塑性损失挑战提供了新的视角，暗示了针对训练不同阶段采取差异化策略的可能性。

基于对视觉强化学习中可塑性损失的深入分析，该研究最终提出了一种创新的训练方法 —— 自适应回放比例。这种方法巧妙地根据 Critic 网络的可塑性水平动态调整回放比例（Replay Ratio），成功破解了视觉强化学习算法难以使用高回放比例的长期困境。对该方法的技术细节感兴趣的读者，可以前往论文原文深入了解。

以上就是从数据增强的隐藏作用出发，揭示视觉强化学习可塑性损失的独特机制的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/790053.html

ai git type 工具工程

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

终于拿到内测！豆包-PixelDance真是字节视频生成大杀器

上一篇 2025年11月26日 13:52:26

与其造神，不如依靠群体的力量：这家公司走出了一条不同于OpenAI的AGI路线

下一篇 2025年11月26日 13:52:58

好文分享

Uniapp 中如何不拉伸不裁剪地展示图片？

灵活展示图片：如何不拉伸不裁剪在界面设计中，常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。对于不同尺寸的图片，可以采用以下处理方式：极端宽高比：撑满屏幕宽度或高度，再等比缩放居中。非极端宽高比：居中显示，若能撑满则撑满。然而，如果需要不拉伸不…

程序猿
2025年12月24日
4000
好文分享

如何让小说网站控制台显示乱码，同时网页内容正常显示？

如何在不影响用户界面的情况下实现控制台乱码？当在小说网站上下载小说时，大家可能会遇到一个问题：网站上的文本在网页内正常显示，但是在控制台中却是乱码。如何实现此类操作，从而在不影响用户界面（UI）的情况下保持控制台乱码呢？答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体，并通过在客户端…

程序猿
2025年12月24日
8000
好文分享

如何在地图上轻松创建气泡信息框？

地图上气泡信息框的巧妙生成地图上气泡信息框是一种常用的交互功能，它简便易用，能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。利用地图库的原生功能大多数地图库，如高德地图，都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现：高德地图 JS API 参考文…

程序猿
2025年12月24日
4000
好文分享

如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画？

如何实现元素scrollleft变化时的平滑动画效果？在许多网页应用中，滚动容器的水平滚动条（scrollleft）需要频繁使用。为了让滚动动作更加自然，你希望给scrollleft的变化添加动画效果。解决方案：scroll-behavior 属性要实现scrollleft变化时的平滑动画效果…

程序猿
2025年12月24日
0000
好文分享

如何为滚动元素添加平滑过渡，使滚动条滑动时更自然流畅？

给滚动元素平滑过渡如何在滚动条属性（scrollleft）发生改变时为元素添加平滑的过渡效果？解决方案：scroll-behavior 属性为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码： click the button to slide right!…

程序猿
2025年12月24日
5000
好文分享

如何选择元素个数不固定的指定类名子元素？

灵活选择元素个数不固定的指定类名子元素在网页布局中，有时需要选择特定类名的子元素，但这些元素的数量并不固定。例如，下面这段 html 代码中，activebar 和 item 元素的数量均不固定： *n *n 如果需要选择第一个 item元素，可以使用 css 选择器 :nth-child()。该…

程序猿
2025年12月24日
2000
好文分享

使用 SVG 如何实现自定义宽度、间距和半径的虚线边框？

使用 svg 实现自定义虚线边框如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片，但是这种方法存在引入外部资源、性能低下的缺点。为了避免上述问题，可以使用 svg（可缩放矢量图形）来创建纯代码实现。一种方…

程序猿
2025年12月24日
1000
好文分享

如何让“元素跟随文本高度，而不是撑高父容器？

如何让元素跟随文本高度，而不是撑高父容器在页面布局中，经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中，父容器被较高的图片撑开，而文本的高度没有被考虑。本问答将提供纯css解决方案，让图片跟随文本高度，确保父容器的高度不会被图片影响。解决方法为了解决这个问题，需要将图片从文档流中脱离…

程序猿
2025年12月24日
0000
好文分享

为什么 CSS mask 属性未请求指定图片？

解决 css mask 属性未请求图片的问题在使用 css mask 属性时，指定了图片地址，但网络面板显示未请求获取该图片，这可能是由于浏览器兼容性问题造成的。问题如下代码所示：立即学习“前端免费学习笔记（深入）”； icon [data-icon=”cloud”] { –icon-cl…

程序猿
2025年12月24日
2000
好文分享

如何利用 CSS 选中激活标签并影响相邻元素的样式？

如何利用 css 选中激活标签并影响相邻元素？为了实现激活标签影响相邻元素的样式需求，可以通过 :has 选择器来实现。以下是如何具体操作：对于激活标签相邻后的元素，可以在 css 中使用以下代码进行设置： li:has(+li.active) { border-radius: 0 0 10px…

程序猿
2025年12月24日
1000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
2000
好文分享

为什么我的 Safari 自定义样式表在百度页面上失效了？

为什么在 Safari 中自定义样式表未能正常工作？在 Safari 的偏好设置中设置自定义样式表后，您对其进行测试却发现效果不同。在您自己的网页中，样式有效，而在百度页面中却失效。造成这种情况的原因是，第一个访问的项目使用了文件协议，可以访问本地目录中的图片文件。而第二个访问的百度使用了 ht…

程序猿
2025年12月24日
0000
好文分享

如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果？

如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果，可以通过以下途径： CSS 解决方案 DEMO 1: Windows 10 网格悬停效果：https://codepen.io/tr4553r7/pe…

程序猿
2025年12月24日
0000
好文分享

使用CSS mask属性指定图片URL时，为什么浏览器无法加载图片？

css mask属性未能加载图片的解决方法使用css mask属性指定图片url时，如示例中所示： mask: url(“https://api.iconify.design/mdi:apple-icloud.svg”) center / contain no-repeat; 但是，在网络面板中却…

程序猿
2025年12月24日
0000
好文分享

如何用CSS Paint API为网页元素添加时尚的斑马线边框？

为元素添加时尚的斑马线边框在网页设计中，有时我们需要添加时尚的边框来提升元素的视觉效果。其中，斑马线边框是一种既醒目又别致的设计元素。实现斜向斑马线边框要实现斜向斑马线间隔圆环，我们可以使用css paint api。该api提供了强大的功能，可以让我们在元素上绘制复杂的图形。立即学习“前端…

程序猿
2025年12月24日
0000
好文分享

图片如何不撑高父容器？

如何让图片不撑高父容器？当父容器包含不同高度的子元素时，父容器的高度通常会被最高元素撑开。如果你希望父容器的高度由文本内容撑开，避免图片对其产生影响，可以通过以下 css 解决方法：绝对定位元素： .child-image { position: absolute; top: 0; left: …

程序猿
2025年12月24日
0000
CSS 帮助

我正在尝试将文本附加到棕色框的左侧。我不能。我不知道代码有什么问题。请帮助我。 css .hero { position: relative; bottom: 80px; display: flex; justify-content: left; align-items: start; color:…

程序猿
2025年12月24日 • 好文分享
2000
好文分享

HTML、CSS 和 JavaScript 中的简单侧边栏菜单

构建一个简单的侧边栏菜单是一个很好的主意，它可以为您的网站添加有价值的功能和令人惊叹的外观。侧边栏菜单对于客户找到不同项目的方式很有用，而不会让他们觉得自己有太多选择，从而创造了简单性和秩序。今天，我将分享一个简单的 HTML、CSS 和 JavaScript 源代码来创建一个简单的侧边栏菜单。…

程序猿
2025年12月24日
2000
好文分享

前端代码辅助工具：如何选择最可靠的AI工具？

前端代码辅助工具：可靠性探讨对于前端工程师来说，在HTML、CSS和JavaScript开发中借助AI工具是司空见惯的事情。然而，并非所有工具都能提供同等的可靠性。个性化需求关于哪个AI工具最可靠，这个问题没有一刀切的答案。每个人的使用习惯和项目需求各不相同。以下是一些影响选择的重要因素：立…

程序猿
2025年12月24日
0000
好文分享

带有 HTML、CSS 和 JavaScript 工具提示的响应式侧边导航栏

响应式侧边导航栏不仅有助于改善网站的导航，还可以解决整齐放置链接的问题，从而增强用户体验。通过使用工具提示，可以让用户了解每个链接的功能，包括设计紧凑的情况。在本教程中，我将解释使用 html、css、javascript 创建带有工具提示的响应式侧栏导航的完整代码。对于那些一直想要一个干净、简…

程序猿
2025年12月24日
0000

发表回复

登录后才能评论

从数据增强的隐藏作用出发，揭示视觉强化学习可塑性损失的独特机制

关于作者

相关推荐

发表回复