聚焦「视听触感官」协同配合的具身精细操纵,人大胡迪团队领衔探索机器人模态时变性挑战

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

聚焦「视听触感官」协同配合的具身精细操纵,人大胡迪团队领衔探索机器人模态时变性挑战

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文作者来自于中国人民大学,深圳朝闻道科技有限公司以及中国电信人工智能研究院。其中第一作者冯若轩为中国人民大学二年级硕士生,主要研究方向为多模态具身智能,师从胡迪教授。

Giiso写作机器人 Giiso写作机器人

Giiso写作机器人,让写作更简单

Giiso写作机器人 56 查看详情 Giiso写作机器人

引言:在机器人操纵物体的过程中,不同传感器数据携带的噪声会对预测控制造成怎样的影响?中国人民大学高瓴人工智能学院 GeWu 实验室、朝闻道机器人和 TeleAI 最近的合作研究揭示并指出了 “模态时变性”(Modality Temporality)现象,通过捕捉并刻画各个模态质量随物体操纵过程的变化,提升不同信息在具身多模态交互的感知质量,可显著改善精细物体操纵的表现。论文已被 CoRL2024 接收并选为 Oral Presentation。聚焦「视听触感官」协同配合的具身精细操纵,人大胡迪团队领衔探索机器人模态时变性挑战

人类在与环境互动时展现出了令人惊叹的感官协调能力。以一位厨师为例,他不仅能够凭借直觉掌握食材添加的最佳时机,还能通过观察食物的颜色变化、倾听烹饪过程中的声音以及嗅闻食物的香气来精准调控火候,从而无缝地完成烹饪过程中的每一个复杂阶段。这种能力,即在执行复杂且长时间的操作任务时,灵活运用不同的感官,是建立在对任务各个阶段全面而深刻理解的基础之上的。
然而,对于机器人而言,如何协调这些感官模态以更高效地完成指定的操作任务,以及如何充分利用多模态感知能力来实现可泛化的任务执行,仍是当前尚未解决的问题。我们不仅需要使模型理解任务阶段本身,还需要从任务阶段的新角度重新审视多传感器融合。在一个复杂的操纵任务中完成将任务划分为不同阶段的一系列子目标的过程中,各个模态的数据质量很可能随任务阶段而不断变化。因此,阶段转换很可能导致模态重要性的变化。除此之外,每个阶段内部也可能存在相对较小的模态质量变化。我们将这种现象总结为多传感器模仿学习的一大挑战:模态时变性(Modality Temporality)。然而,过去的方法很少关注这一点,忽视了阶段理解在多传感器融合中的重要性。
本文借鉴人类的基于阶段理解的多感官感知过程,提出了一个由阶段引导的动态多传感器融合框架 MS-Bot,旨在基于由粗到细粒度的任务阶段理解动态地关注具有更高质量的模态数据,从而更好地应对模态时变性的挑战,完成需要多种传感器的精细操纵任务。
聚焦「视听触感官」协同配合的具身精细操纵,人大胡迪团队领衔探索机器人模态时变性挑战
论文链接:https://arxiv.org/abs/2408.01366v2
项目主页:https://gewu-lab.github.io/MS-Bot/
模态时变性
在复杂的操作任务中,各传感器数据的质量可能会随着阶段的变化而变化。在不同的任务阶段中,一个特定模态的数据可能对动作的预测具有重大贡献,也可能作为主要模态的补充,甚至可能几乎不提供任何有用的信息。
聚焦「视听触感官」协同配合的具身精细操纵,人大胡迪团队领衔探索机器人模态时变性挑战
                               图 1 倾倒任务的模态时变性
以上图中的倾倒任务为例,在初始的对齐阶段中,视觉模态对动作的预测起决定性作用。进入开始倾倒阶段后,模型需要开始利用音频和触觉的反馈来确定合适的倾倒角度(倒出速度)。在保持静止阶段,模型主要依赖音频和触觉信息来判断已经倒出的小钢珠质量是否已经接近目标值,而视觉几乎不提供有用的信息。最后,在结束倾倒阶段,模型需要利用触觉模态的信息判断倾倒任务是否已经完成,与开始倾倒阶段进行区分。除阶段间的模态质量变化,各个阶段内部也可能存在较小的质量变化,例如音频模态在开始倾倒和结束倾倒的前期和后期具有不同的重要性。我们将这两种变化区分为粗粒度和细粒度的模态质量变化,并将这种现象总结为多传感器模仿学习中的一个重要挑战:模态时变性。
方法:阶段引导的动态多传感器融合
为了应对模态时变性的挑战,我们认为在机器人操纵任务中,多传感器数据的融合应该建立在充分的任务阶段理解之上。因此,我们提出了 MS-Bot 框架,这是一个由阶段引导的动态多传感器融合方法,旨在基于显式的由粗到细的任务阶段理解动态地关注具有更高质量的模态数据。为了将显式的阶段理解整合到模仿学习过程中,我们首先为每个数据集中的样本添加了一个阶段标签,并将动作标签和阶段标签共同作为监督信号训练包含四个模块的 MS-Bot 框架(如图 2 所示):
特征提取模块:该模块包含一系列单模态编码器,每个编码器都接受一段简短的单模态观测历史作为输入,并将它们编码为特征。
状态编码器:该模块旨在将各模态特征和动作历史序列编码为表示当前任务状态的 token。动作历史与人类记忆相似,可以帮助指示当前所处的任务状态。我们将动作历史输入到一个 LSTM 中,并通过一个 MLP 将它们与模态特征编码为状态 token。
阶段理解模块:该模块旨在通过将阶段信息注入状态 token 中,从而实现显式的由粗到细粒度的任务阶段理解。我们用一组可学习的阶段 token 来表示每个任务阶段,并通过一个门控网络(MLP)来预测当前所处的阶段,利用 Softmax 归一化后的阶段预测分数对阶段 token 进行加权融合,得到当前阶段 token。门控网络的训练以阶段标签作为监督信号,对非当前阶段的预测分数进行惩罚。我们还放松了对阶段边界附近的样本上的相邻阶段分数惩罚,从而实现软约束效果,得到更平滑的阶段预测。新的注入阶段信息后的状态 token 由原状态 token 和阶段 token 加权融合得到,可以表示任务阶段内的细粒度状态,从而对多传感器动态融合进行引导。
动态融合模块:该模块根据当前任务阶段的细粒度状态动态地选择关注的模态特征。我们以注入了阶段信息的状态 token 作为 Query,将模态特征作为 Key 和 Value 进行交叉注意力(Cross Attention)。该方法根据当前任务阶段的需求,将各模态的特征动态地整合到一个融合 token 中。最后,该融合 token 输入到策略网络(MLP)中预测下一个动作。我们还引入了随机注意力模糊机制,以一定概率将各单模态特征 token 上的注意力分数替换为相同的平均值,防止模型简单地记忆与注意力分数模式对应的动作。
聚焦「视听触感官」协同配合的具身精细操纵,人大胡迪团队领衔探索机器人模态时变性挑战
                                          图 2 由阶段引导的动态多传感器融合框架 MS-Bot
实验结果
为了验证基于由粗到细的任务阶段理解的 MS-Bot 的优越性,我们在两个十分有挑战性的精细机器人操纵任务:倾倒和带有键槽的桩插入中进行了详细的对比。
聚焦「视听触感官」协同配合的具身精细操纵,人大胡迪团队领衔探索机器人模态时变性挑战
                                 图 3 倾倒与带有键槽的桩插入任务设置
如表 1 所示,MS-Bot 在两个任务的所有设置上均优于所有基线方法。MS-Bot 在两个任务中的性能超过了使用自注意力(Self Attention)进行动态融合的 MULSA 基线,这表明 MS-Bot 通过在融合过程中基于对当前阶段的细粒度状态的理解更好地分配模态权重,而没有显示阶段理解的 MULSA 基线无法充分利用动态融合的优势。
聚焦「视听触感官」协同配合的具身精细操纵,人大胡迪团队领衔探索机器人模态时变性挑战
                                     表 1 倾倒和带有键槽的桩插入任务上的性能比较
我们还对任务完成中各个模态的注意力分数和各阶段的预测分数进行了可视化。在每个时间步,我们分别对每种模态的所有特征 token 的注意力分数进行平均,而阶段预测分数是 Softmax 归一化后的门控网络输出。如图 4 所示,MS-Bot 准确地预测了任务阶段的变化,并且得益于模型中由粗到细粒度的任务阶段理解,三个模态的注意力分数保持相对稳定,表现出明显的阶段间变化和较小的阶段内调整。
聚焦「视听触感官」协同配合的具身精细操纵,人大胡迪团队领衔探索机器人模态时变性挑战
                                   图 4 各模态注意力分数和阶段预测分数可视化
为了验证 MS-Bot 对干扰物的泛化能力,我们在两个任务中都加入了视觉干扰物。在倾倒任务中,我们将量筒的颜色从白色更改为红色。对于桩插入任务,我们将底座颜色从黑色更改为绿色(“Color”),并在底座周围放置杂物(“Mess”)。如表 2 所示,MS-Bot 在各种有干扰物的场景中始终保持性能优势,这是因为 MS-Bot 根据对当前任务阶段的理解动态地分配模态权重,从而减少视觉噪声对融合特征的影响,而基线方法缺乏理解任务阶段并动态调整模态权重的能力。
聚焦「视听触感官」协同配合的具身精细操纵,人大胡迪团队领衔探索机器人模态时变性挑战
                                                               表 2 含视觉干扰物场景中的性能比较
总述
本文从任务阶段的视角重新审视了机器人操纵任务中的多传感器融合,引入模态时变性的挑战,并将由子目标划分的任务阶段融入到模仿学习过程中。该研究提出了 MS-Bot,一种由阶段引导的多传感器融合方法,基于由粗到细粒度的阶段理解动态地关注质量更高的模态。我们相信由显式阶段理解引导的多传感器融合会成为一种有效的多传感器机器人感知范式,并借此希望能够激励更多的多传感器机器人操纵的相关研究。

以上就是聚焦「视听触感官」协同配合的具身精细操纵,人大胡迪团队领衔探索机器人模态时变性挑战的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/412141.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月6日 23:44:24
下一篇 2025年11月6日 23:45:16

相关推荐

  • 安卓用户如何手动安装BInance必安APP_APK下载与授权设置说明

    安卓用户如果无法通过官方应用市场获取 binance(必安)app,可选择手动安装方式,即下载官方认证的 apk 安装包。这种方式适用于未预装 google 服务或应用市场无法正常访问的设备。以下是完整的手动安装流程与权限设置指导。 币安官方合作伙伴认证 · 一站式安全交易体验 官网直达: 安卓安装…

    2025年12月8日
    000
  • 哪些社区活动发放 USDC 奖励?值得关注的平台与方式

    在当前稳定币生态中,usdc作为合规透明的代表,越来越多社区选择以 usdc 作为任务激励、参与奖品或内容创作奖励。本文将介绍值得关注的几个社区活动平台及其发放 usdc 奖励的方式,帮助用户把握获取机会。 Binance币安 官网直达: 安卓安装包下载: 欧易OKX ️ 官网直达: 安卓安装包下载…

    2025年12月8日
    000
  • 使用 USDC 参与 DeFi 锁仓可获空投奖励?最新项目整理

    2025年加密生态进入精细化运营阶段,许多 defi 协议开始以锁仓usdc的方式奖励早期参与者。相比一般交互任务,这类锁仓型空投更侧重用户的资产沉淀意愿,具备更高的空投回报潜力。本文将整理近期可通过 usdc 锁仓获得代币或稳定币空投的主要项目,便于用户评估参与方式与风险门槛。 Binance币安…

    2025年12月8日
    000
  • Joe Lubin:SharpLink每天都在买ETH,接着质押赚收益

    目录 BTC 对决ETH:企业储备策略该选哪一个?每天都在买、买了就质押,未来考虑发行可转债为何ETH 的接受度起步比较慢?SEC 喊停Bitwise ETF 为技术问题,不代表政府反对区块链美国监管放宽,加密产业将迎来全面获利高峰 以太坊联合创始人joe lubin 在今晨7/29 接受访问时,分…

    2025年12月8日
    000
  • Fartcoin(FARTCOIN币)价格预测2025-2030年:未来价格能到多少?

    目录 什么是fartcoin(fartcoin)? 市场表现:过山车般的价格旅程 价格波动的核心驱动因素 今天、明天和未来 30 天的价格预测 Fartcoin(FARTCOIN)2025-2030年价格预测 Fartcoin(FARTCOIN)2025年每月价格预测 2026年Fartcoin(F…

    2025年12月8日
    000
  • 比特币怎么买进卖出 新手虚拟货币购买全流程指南

    对于刚入门的用户来说,购买和卖出比特币看似复杂,其实只需掌握几个关键步骤即可完成。无论是投资长期持有还是短线交易,只要选对平台、认证账户、绑定支付方式,就可以顺利开始操作。本文将为您详解新手购买比特币的完整流程,一步一步教你如何安全买入和卖出虚拟货币。 目前主流的加密货币交易平台如币安与欧易OKX,…

    2025年12月8日
    000
  • 币圈新手入门指南之抓住热点币筛选潜力币

    识别和发掘加密领域潜力资产需遵循四步法:1. 捕捉社交媒体话题增长率、生态交互地址数增长及主流平台搜索指数等市场信号;2. 验证团队背景、代币模型合理性及链上持币地址分布等基本面;3. 结合周线突破关键阻力位、交易量达月均3倍以上及RSI处于40-60区间等技术指标;4. 建立数据仪表板监控、项目里…

    2025年12月8日
    000
  • 币圈新手入门指南之已经注册币安了还可以获取交易返佣吗

    已注册币安账户的用户可通过三大补救策略激活返佣:1. 注销账户并使用邀请码重新注册;2. 提升交易量或持仓至VIP等级享受阶梯返佣;3. 参与做市商计划获取负手续费激励,同时可发展邀请网络、参与返现活动实现多维收益叠加,最终通过策略组合与合规管理实现交易成本优化。 对于已注册币安的新手而言,交易返佣…

    2025年12月8日
    000
  • Yandex浏览器怎么下载BInance必安交易所APP_图文详解新手安装流程

    通过yandex浏览器下载并安装binance必安交易所app是许多用户进入数字货币世界的第一步。yandex作为一款兼容性强、安全性高的浏览器,适合用户访问和下载区块链相关应用。本文将提供官方渠道入口与图文安装流程,帮助新手顺利完成安装。 币安官方合作伙伴认证 · 一站式安全交易体验 官网直达: …

    2025年12月8日
    000
  • 俄语区用户怎么下载BInance必安APP_Yandex浏览器设置全攻略

    俄语区用户在使用yandex浏览器时,可以轻松下载和安装binance(必安)app,即使在地区限制或应用商店无法访问的情况下,依然能够通过官方链接获取安装包。本文将为用户提供详细的设置方法与下载安装流程,确保全程安全、顺利。 币安官方合作伙伴认证 · 一站式安全交易体验 官网直达: 安卓安装包下载…

    2025年12月8日
    000
  • BTC数字货币账户注册教程:三步完成开户

    首先选择知名平台如币安Binance或欧易OKX,准备可用邮箱和手机号;1、访问平台官网点击注册,输入邮箱或手机号并设置高强度密码;2、同意服务条款后提交信息,并通过邮箱或手机验证码完成账户激活;3、登录后完成身份认证(KYC),开启二次验证(2FA)并定期检查安全设置,确保账户安全,以上步骤完成后…

    2025年12月8日
    000
  • 以太坊是什么币?以太坊ETH获得的方式有哪些?

    以太坊是一个基于智能合约的去中心化应用平台,其原生代币ETH可通过多种方式获取。1、通过Binance必安、欧意ok等中心化平台注册账户、完成KYC认证并用稳定币购买ETH;2、通过去中心化平台连接数字储存,使用稳定币或其他代币直接兑换ETH;3、参与网络质押,可选择独立质押(需32个ETH)、流动…

    2025年12月8日
    000
  • 稳定币完全手册:6种主流稳定币类型最新介绍

    稳定币作为数字资产领域的重要组成部分,为市场带来了前所未有的流动性和交易便捷性。它们的设计初衷是为了规避加密货币市场剧烈波动的风险,通过锚定法币或其他资产,试图提供一种相对稳定的价值储存和交换媒介。然而,并非所有稳定币都以相同的方式实现其稳定性,市场上的稳定币种类繁多,各具特色,理解它们的工作原理、…

    2025年12月8日
    000
  • 欧意 · 官网注册入口 | 支持中文APP下载与实名认证

    欧意平台提供安全便捷的数字资产服务,用户可通过官方渠道完成下载、注册与认证。1、通过HTX或币安等官网获取应用,进入官方地址下载对应版本;2、根据设备选择苹果或安卓版,忽略系统安全提醒并完成安装;3、使用邮箱或手机号注册,设置强密码并输入验证码完成验证;4、登录后进入个人中心进行实名认证,选择认证等…

    2025年12月8日
    000
  • 欧意app下载交易网 欧意交易所app官方版v6.129.0下载网址

    欧意(Ouyi)APP 是一款专业的数字资产服务平台,致力于为全球用户提供安全、稳定且高效的交易体验。本文将详细介绍其官方版v6.129.0的下载方式与核心功能,帮助用户快速上手。该版本在用户体验、交易性能和安全性方面进行了全面升级,旨在满足不同层次用户的多样化需求,让用户可以便捷地管理和交易其数字…

    2025年12月8日
    000
  • 以太坊注册平台

    在区块链的浩瀚宇宙中,以太坊(ethereum)作为第二大加密货币,其影响力与比特币并驾齐驱。对于初入币圈的新手而言,如何安全、便捷地注册并购买以太坊,无疑是迈向数字资产世界的第一步。本文将深入探讨以太坊的注册平台选择、安全考量以及实际操作流程,助您轻松掌握以太坊的交易精髓。我们将着重分析市场上主流…

    2025年12月8日
    000
  • 欧亿iOS最新版v6.130.0下载 欧亿交易所完整下载流程.手机版下载

    如果你是苹果用户,苦于没有hk地区app store id,可以选择前往官网下载。欧易(okx) 是全球领先的数字资产交易平台,提供现货、合约、理财、web3账户等多项功能。 官网链接: 客户端下载地址(iOS): 1. 前往官网获取OKX官方 iOS 应用 访问上文官方提供的下载地址,点击“APP…

    2025年12月8日 好文分享
    000
  • 币安交易所app官网注册链接 币安交易所app官方网站入口

    币安(Binance)是全球领先的数字资产交易平台,为用户提供安全、便捷的加密货币交易服务。其官方App功能全面,支持多种主流加密货币的交易与管理。 为了确保您使用的是正版应用,保障资产安全,本文为您提供了币安交易所的官方app下载链接,点击文内链接即可开始下载最新版本的币安app。 币安App下载…

    2025年12月8日
    000
  • 一文全方位了解GENIUS 稳定币法案解析

    2025年7月18日,美国总统签署了《指导与建立美国稳定币国家创新法案》(简称“GENIUS 法案”),标志着美国在数字资产监管领域迈出了历史性的一步。作为美国首部联邦层面的稳定币专项立法,该法案旨在为“支付型稳定币”建立一套全面、清晰的法律和监管框架。 GENIUS 法案的出台,不仅回应了过去稳定…

    2025年12月8日
    000
  • 火 币HTX官网入口-火 币APP下载简体版

    如果你想获取火币htx客户端app,建议通过火币htx官网获取app下载及注册入口,确保账户与设备安全可靠。火币htx(前身为火币网,英文简称 htx)是一家国际领先的数字资产交易平台,覆盖现货、合约、杠杆、理财等服务。 官网链接: 客户端下载地址: 1. 如何确认访问火币HTX正规官网 访问地址需…

    2025年12月8日 好文分享
    000

发表回复

登录后才能评论
关注微信