率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习

本论文作者杨睿是中国科学技术大学 2019 级硕博连读生,师从王杰教授、李斌教授,主要研究方向为强化学习、自动驾驶等。他曾以第一作者在 neurips、kdd 等顶级期刊与会议上发表论文两篇,曾获滴滴精英实习生(16/1000+)。

近日,中科大王杰教授团队 (MIRA Lab) 针对离线强化学习数据集存在多类数据损坏这一复杂的实际问题,提出了一种鲁棒的变分贝叶斯推断方法,有效地提升了智能决策模型的鲁棒性,为机器人控制、自动驾驶等领域的鲁棒学习奠定了重要基础。论文发表在 CCF-A 类人工智能顶级会议 Neural Information Processing Systems(NeurIPS 2024)。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习

论文地址:https://arxiv.org/abs/2411.00465代码地址:https://github.com/MIRALab-USTC/RL-TRACER

引言

在机器人控制领域,离线强化学习正逐渐成为提升智能体决策和控制能力的关键技术。然而,在实际应用中,离线数据集常常由于传感器故障、恶意攻击等原因而遭受不同程度的损坏。这些损坏可能表现为随机噪声、对抗攻击或其他形式的数据扰动,影响数据集中的状态、动作、奖励和转移动态等关键元素。经典离线强化学习算法往往假设数据集是干净、完好无损的,因此在面对数据损坏时,机器学习到的策略通常趋向于损坏数据中的策略,进而导致机器在干净环境下的部署时性能显著下降。

尽管研究者在鲁棒离线强化学习领域已经取得了一些进展,如一些方法尝试通过增强测试期间的鲁棒性来缓解噪声或对抗攻击的影响,但它们大多在干净数据集上训练智能体模型,以防御测试环境中可能出现的噪声和攻击,缺乏对训练用离线数据集存在损坏的应对方案。而针对离线数据损坏的鲁棒强化学习方法则只关注某一特定类别的数据存在损坏,如状态数据、或转移动态数据存在部分损坏,他们无法有效应对数据集中多个元素同时受损的复杂情况。

为了针对性地解决这些现有算法的局限性,我们提出了一种鲁棒的变分贝叶斯推断方法(TRACER),有效地增强了离线强化学习算法在面临各类数据损坏时的鲁棒性。TRACER 的优势如下所示:

1. 据我们所知,TRACER 首次将贝叶斯推断引入到抗损坏的离线强化学习中。通过将所有离线数据作为观测值,TRACER 捕捉了由各类损坏数据所导致的动作价值函数中的不确定性。

2. 通过引入基于熵的不确定性度量,TRACER 能够区分损坏数据和干净数据,从而调控并减弱损坏数据对智能体模型训练的影响,以增强鲁棒性。

3. 我们在机器人控制(MuJoCo)和自动驾驶(CARLA)仿真环境中进行了系统性地测试,验证了 TRACER 在各类离线数据损坏、单类离线数据损坏的场景中均显著提升了智能体的鲁棒性,超出了多个现有的 SOTA 方法。

1. 方法介绍

1.1 动机

考虑到(1)多种类型的损毁会向数据集的所有元素引入较高的不确定性,(2)每个元素与累积奖励(即动作值、Q 值)之间存在明确的相关性关系(见图 1 中的虚线),因此使用多种受损数据估计累积奖励函数(即动作值函数)会引入很高的不确定性。

率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习

图 1. 决策过程的概率图模型。实线连接的节点表示数据集中的数据,而虚线连接的 Q 值(即动作值、累积回报)不属于数据集。

为了处理这类由多种数据损毁(即状态、动作、奖励、状态转移数据受损)导致的高不确定性问题,基于图 2 所示的概率图模型,我们提出利用数据集中的所有元素作为观测数据。我们旨在利用这些观测数据与累积奖励之间的高度相关性,来准确地识别动作值函数的不确定性。

1.2 基于受损数据的贝叶斯推断

我们提出使用离线数据集的所有元素作为观测值,利用数据之间的相关性同时解决不确定性问题。具体地,基于离线数据集中动作价值与四个元素(即状态、动作、奖励、下一状态)之间的关系,我们分别使用各个元素作为观测数据,通过引入变分贝叶斯推理框架,我们最大化动作值函数的后验分布,从而推导出各个元素对应的基于最大化证据下界 (ELBO) 的损失函数。基于对动作价值函数的后验分布的拟合,我们能有效地将数据损坏建模为动作值函数中的不确定性。

1.3 基于熵的不确定性度量

为了进一步应对各类数据损坏带来的挑战,我们思考如何利用不确定性进一步增强鲁棒性。鉴于我们的目标是提高在干净环境中的智能体性能,我们提出减少损坏数据的影响,重点是使用干净数据来训练智能体。因此,我们提供了一个两步计划:(1)区分损坏数据和干净数据;(2)调控与损坏数据相关的损失,减少其影响,从而提升在干净环境中的表现。

AI大学堂 AI大学堂

科大讯飞打造的AI学习平台

AI大学堂 87 查看详情 AI大学堂

对于(1),由于损坏数据通常会造成比干净数据更高的不确定性和动作价值分布熵,因此我们提出通过估计动作值分布的熵,来量化损坏数据和干净数据引入的不确定性。

对于 (2),我们使用分布熵指数的倒数来加权我们提出的 ELBO 损失函数。因此,在学习过程中,TRACER 能够通过调控与损坏数据相关的损失来减弱其影响,并同时专注于最小化与干净数据相关的损失,以增强在干净环境中的鲁棒性和性能。

1.4 算法架构

率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习

图 2. TRACER 算法框架图。

2. 实验介绍

为了模拟数据受损的情形,我们对数据集的部分数据加入随机噪声或对抗攻击来构建损坏数据。在我们的实验中,我们对 30% 的单类数据进行损坏。因此,在所有类型的数据都有损坏时,整个离线数据集中,损坏数据占约率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习的规模。

各类数据均受损

所有类型数据元素均存在损坏的部分实验结果见表 1,TRACER 在所有控制环境中均获得了较为明显的性能提升,提升幅度达 + 21.1%,这一结果展现了 TRACER 对大规模、各类数据损坏的强鲁棒性。

率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习

表 1. 离线数据集的所有类型元素均存在随机损坏(random)或对抗损坏(advers)时,我们的方法 TRACER 在所有环境中都获得了最高的平均得分。

单类数据受损

单种类型数据元素存在损坏的部分实验结果见表 2 和表 3。在单类数据损坏中,TRACER 于 24 个实验设置里实现 16 组最优性能,可见 TRACER 面向小规模、单类数据损坏的问题也能有效地增强鲁棒性。

率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习

表 2. 单类元素存在随机损坏时,我们的方法 TRACER 在 8 个实验设置中获得了最高的平均得分。

率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习

表 3. 单类元素存在对抗损坏时,我们的方法 TRACER 在 8 个实验设置中获得了最高的平均得分。

以上就是率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/410151.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月6日 22:55:50
下一篇 2025年11月6日 22:56:59

相关推荐

  • Nexo、加密借贷与比特币持仓:一种纽约心态

    探索nexo推动的加密货币借贷新趋势,用户正借助其btc资产满足日常开销,这一现象由技术创新与现实需求共同促成。 Nexo、加密借贷与BTC持有:纽约式金融思维 告别出售比特币换取现金流的时代。围绕Nexo平台进行的加密借贷以及持续持有BTC的做法正逐步流行,彻底改变了人们处理数字资产的方式。这就像…

    2025年12月8日
    000
  • SOL看涨趋势确立:技术图表显示300美元目标价,索拉纳ETF获批概率达99.7%

    ‍ 关键要点: Polymarket上Solana现货ETF获批几率跃升至99.7%。SOL价格在日线图上形成看涨旗形,目标为300美元。 SOL的价格在日线图上形成了看涨旗形,这是一种与强劲看涨动能相关的技术图形,通常在价格突破后出现。 SOL价格看涨旗形目标300美元 SOL价格技术指标显示,如…

    2025年12月8日
    000
  • RISC Zero是什么?如何运作?RISC Zero项目团队,代币经济与未来路线介绍

    目录 什么是 RISC Zero?RISC Zero 如何工作?RISC零产品项目亮点代币和代币经济学概述2025年路线图项目团队、投资者和合作伙伴项目团队投资者伙伴概括 随着零知识技术在#%#$#%@%@%$#%$#%#%#$%@_75d8fafb0706c++9381d4c91e3b184f19…

    2025年12月8日 好文分享
    000
  • DAO组织的应用场景介绍

    DAO(去中心化自治组织)已在多个领域探索出丰富的应用场景,典型包括:1.投资与资金管理:通过DAO聚集成员资金并集体决策投资方向,案例如The DAO、Metacartel、Friends with Benefits;2.协议与项目治理:由DAO成员投票决定区块链项目的升级和参数调整,案例如Mak…

    2025年12月8日
    000
  • 稳定币十大龙头分别是 稳定币十大龙头股排名2025

    2025年稳定币十大龙头排名分别为USDT、USDC、DAI、FDUSD、Ethena USDe、TUSD、USDP、PYUSD、USDD和FRAX。 稳定币作为加密世界与现实世界法定货币之间的关键桥梁,为市场提供了重要的价值储存和交易媒介。本文将详细盘点当前市场中占据主导地位的十大稳定币,并深入分…

    2025年12月8日
    000
  • 虚拟币的特点与风险 加密货币真假辨别方法

    在数字经济的浪潮 surging 的当下,以区块链技术为基石的虚拟货币(或称加密资产)正以前所未有的速度走进公众视野。它们凭借 去中心化、匿名性(相对)和全球流通等特性,吸引了无数关注,被视为潜在的价值储存手段或交易媒介。然而,硬币的另一面是,这个新兴领域也充斥着 高度的不确定性 和各种潜在陷阱。了…

    2025年12月8日
    000
  • 自建以太坊节点靠谱吗?如何搭建自己的以太坊节点

    自建以太坊节点到底靠不靠谱?如何具体搭建?本文将围绕这些问题进行解析,并提供详细的搭建流程。 自建节点的可靠性解析 自建以太坊节点在可靠性上总体是可控的,尤其适合对数据完整性和自主性有要求的用户。其主要优点包括: 1、数据自主可控:节点拥有完整或部分区块数据,避免依赖第三方服务。 2、提高隐私性:使…

    2025年12月8日
    000
  • 币圈白嫖指南:空投奖励怎么领最划算

    “空投”指的是项目方向用户免费发放代币的一种推广手段。本文将详细介绍如何领取空投奖励。 什么是空投,为什么会有空投? 空投通常用于项目早期吸引关注度、鼓励用户参与社区建设或测试网络功能。通过空投,用户可以以低成本获取潜力代币,而项目方则能迅速扩大影响力。 领取空投的基本流程 1、创建账户:准备一个支…

    2025年12月8日
    000
  • 人形机器人、情感智能与人工智能:未来已来

    探索人形机器人、情感智能与人工智能技术交汇的无限可能,聚焦 realbotix 的最新突破及推动未来发展的关键趋势。 人形机器人、情感智能与人工智能:未来已来 人形机器人、情感智能与人工智能的结合早已跳脱科幻范畴。Realbotix 正在这一领域开疆拓土,推出具备情感识别、自然互动和多感官感知能力的…

    2025年12月8日
    000
  • 加密货币是什么?如何辨别加密货币真伪?加密货币有哪些种类?

    加密货币是一种基于密码学原理、去中心化的数字资产,其核心特征包括使用区块链技术、去中心化管理、高安全性以及有限供应;辨别加密货币真伪需1.考察项目白皮书和团队背景,2.关注社区活跃度和透明度,3.查看代码库和技术审计报告,4.评估项目应用场景和落地情况;加密货币主要分为四类:1.原生加密货币如比特币…

    2025年12月8日
    000
  • 普通人如何提前埋伏到即将暴涨的山寨币

    1.追踪聪明资金动向,关注巨鲸账户对低市值新项目的持续小额买入;2.分析链上数据,通过持有人数、活跃地址数及交易量等指标判断项目真实基本面;3.捕捉热门叙事趋势,结合行业领袖观点与社区热度提前布局新兴概念;4.深度研究项目基本面,评估价值主张、团队背景、代币模型及投资机构背书。通过综合运用Arkha…

    2025年12月8日
    000
  • 以太坊与阻力位的博弈:区间突破能否点燃山寨季?

    以太坊正处于一个至关重要的转折时刻,潜在的区间突破正在酝酿。它是否能够冲破阻力,点燃山寨币行情?还是再次陷入震荡调整? 如同一位技艺高超的舞者,以太坊正与关键阻力展开一场微妙的“较量”。ETH价格目前维持在 2,500 美元附近,显示出一定支撑力量,但市场仍密切关注:它是否能成功跳出当前震荡格局,带…

    2025年12月8日
    000
  • 稳定币官网入口 稳定币入口地址2025最新

    本文提供了2025年主流稳定币的官方入口及获取平台。1. USDT官网为Tether.to,可在币安、OKX等平台交易;2. USDC由Circle发行,官网可查审计报告,支持在币安、OKX等平台流通;3. DAI为去中心化稳定币,相关信息可通过MakerDAO官网获取,在币安、OKX等平台交易。 …

    2025年12月8日
    000
  • 币圈土狗币能买吗?如何识别诈骗项目?

    币圈中的“土狗币”通常指那些市值极低、项目信息不透明、技术基础薄弱甚至没有实际应用场景的新发行加密货币。这些代币往往伴随高风险的叙事而出现。 1.  土狗币项目普遍缺乏实质性技术支撑和成熟的应用方案。 很多时候,它们仅仅是一个在现有区块链上发行的代币,没有独特的技术创新。 2.  这类代币的流动性非…

    2025年12月8日
    000
  • 币圈AMA是什么?怎么判断项目真实性?

    币圈中的ama,是ask me anything的缩写,直译过来是“问我任何问题”。这是一种项目方与社区成员进行互动交流的形式。项目团队通常会在特定的平台,例如telegram群组、discord服务器、或者通过twitter spaces进行直播,向参与者开放提问。社区成员可以借此机会直接向项目的…

    2025年12月8日
    000
  • 比特币是如何运作的?白话讲解其背后机制

    比特币是一种去中心化的数字账本系统,其核心通过区块链技术实现;1.它由全球节点共同维护,所有交易公开透明且不可篡改;2.交易先被广播并验证,再被打包进区块,形成链式结构;3.矿工通过算力竞争解决数学难题,获得记账权及比特币奖励;4.其安全性依赖于工作量证明机制和全网算力分布,防止51%攻击。 一、比…

    2025年12月8日
    000
  • 深度挖掘”被低估的3大本土概念币” 翻倍在即

    在数字资产的广阔海洋中,发掘那些价值尚未被市场充分认识的“璞玉”是许多参与者的目标。本文将深入探讨三个源于本土智慧、具备深厚技术底蕴且当前市值可能被低估的概念项目。我们将详细阐述这些项目的核心技术、生态应用以及它们为何具备显著的增长潜力,旨在为读者提供一个清晰的分析框架。 2025主流加密货币交易所…

    2025年12月8日
    000
  • USDT和USDC哪个更安全?2025年稳定币市值排名

    USDT在流动性方面占优,USDC在安全与合规上更强。1.USDT储备含商业票据透明度较低,而USDC储备为现金及美债且经审计更透明;2.USDC受美国严格监管合规性更高;3.USDT因先发优势市场接受度和流动性更广。预测2025年稳定币市值排名依次为:1.USDT因网络效应稳固第一;2.USDC借…

    2025年12月8日
    000
  • 稳定币龙头股排名前十名

    稳定币作为加密世界的基石,为市场提供了重要的价值锚定和避险工具。本文将为您盘点当前市值和影响力排名前十的稳定币项目,帮助您了解它们各自的特点、优势以及主要的交易平台。 2025年稳定币交易所: 欧易okx:   币安binance:   火币htx: 稳定币项目综合实力排名 1. Tether (U…

    2025年12月8日
    000
  • 怎么免费获得ETH_ETH免费获取方法大全

    【权威推荐】2025主流数字货币交易平台合集 Binance币安 官网直达: 安卓安装包下载: 欧易OKX ️ 官网直达: 安卓安装包下载: Huobi火币️ 官网直达: 安卓安装包下载: 怎么免费获得ETH?ETH免费获取方法大全 以太坊(ETH)作为主流智能合约平台的核心资产,是大量链上活动的通…

    2025年12月8日
    000

发表回复

登录后才能评论
关注微信