朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐

人形机器人领域,有一个非常值钱的问题:既然人形机器人的样子与人类类似,那么它们能使用网络视频等数据进行学习和训练吗?
如果可以,那考虑到网络视频的庞大规模,机器人就再也不用担心没有学习资源了。
近日,德克萨斯大学奥斯汀分校和 NVIDIA Research 的朱玉可团队公布了他们的一篇 CoRL 2024 oral 论文,其中提出了一种名为 OKAMI 的方法,可基于单个 RGB-D 视频生成操作规划并推断执行策略。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐

论文地址:OKAMI: Teaching Humanoid Robots Manipulation Skills through Single Video Imitation
论文链接:https://arxiv.org/pdf/2410.11792
项目地址:https://ut-austin-rpl.github.io/OKAMI/
先来看看演示视频:朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐
可以看到,机器人在看过人类演示者向袋子中装东西后,也学会了以同样的动作向袋子中装东西。不仅如此,OKAMI 还能让人形机器人看一眼演示视频就轻松学会撒盐、将玩具放进篮子和合上笔记本电脑等任务。
朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐
朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐
朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐
和 AI 领域内的许多技术一样,OKAMI 也是一个缩写词,全称是 Object-aware Kinematic retArgeting for huManoid Imitation,即用于人形机器人模仿的物体感知型动力学重定向
顾名思义,这是一种物体感知型重定向方法,可以让具有两个灵巧机器手的双手型人形机器人基于单个 RGB-D 视频演示模仿其中的操作行为。
OKAMI 方法详解
OKAMI 采用了一种两阶段过程,可将人类运动重新定向成人形机器人的运动,从而可在不同初始条件下完成任务。
在第一个阶段,OKAMI 会处理视频并生成一个参考操作规划。
朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐
在第二个阶段,OKAMI 会使用该规划来合成人形机器人的运动,这个过程会用到运动重定向,其作用是适应目标环境中的物体位置。
朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐
图 2 展示了其整个工作流程。
朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐
问题描述
首先,该团队将人形机器人操作任务描述成了一个离散时间马尔可夫决策过程,并将其定义成了一个元组 M = (S, A, P, R, γ, µ)。其中 S 是状态空间、A 是动作空间、P (・|s, a) 是转移概率、R (s) 是奖励函数、γ ∈ [0, 1) 是折扣因子、µ 是初始状态分布。
在这里,S 就是原始 RGB-D 观察的空间,其中包含机器人和物体的状态;A 则是人形机器人的运动指令的空间;R 是一个稀疏的奖励函数 —— 当任务完成时,返回 1。对于一个任务,其目标是找到一个策略 π,使其可以在测试时间最大化大量不同的初始配置下的预期任务成功率。
他们考虑了「基于观察的开放世界模仿」设置。在该设置中,这个机器人系统会获得一段录制的 RGB-D 人类视频 V,然后其需要返回一个人形机器人操作策略 π,使机器人可以完成视频演示的任务。
参考规划生成
为了实现物体感知型重新定向,OKAMI 首先会为人形机器人生成一个参考规划。规划生成需要了解有哪些与任务相关的物体以及人类如何操作它们。
识别和定位与任务相关的物体
为了模仿视频 V 中的操作任务,OKAMI 必须识别要交互的物体。之前的方法需要具有简单背景的无监督方法或需要额外的人工标注,而 OKAMI 则不一样,其使用了现成可用的视觉 – 语言模型(VLM)GPT-4V 来识别 V 中与任务相关的物体;这自然是用到了该模型中内化的常识性知识
具体来说,OKAMI 会通过采样 RGB 帧并使用 GPT-4V 来获取与任务相关的物体的名称。使用这些名称,OKAMI 再使用 Grounded-SAM 来分割第一帧中的物体并使用视频目标分割模型 Cutie 来跟踪这些物体的位置。
重建人类运动
为了将人类运动重新定向成机器人运动,OKAMI 会重建来自 V 的人类运动以获取运动轨迹。为此,他们采用了改进版的 SLAHMR,这是一种用于重建人类运动序列的迭代式优化算法。虽然 SLAHMR 假设双手平放,而新的扩展优化了 SMPL-H 模型的手部姿势,这些姿势使用来自 HaMeR 的估计手部姿势进行初始化。此修改使得单目视频中的身体和手部姿势可以进行联合优化。其输出是一个获取了全身和手部姿势的 SMPL-H 模型序列,让 OKAMI 可以将人类动作重新定向到人形机器人。
此外,SMPL-H 模型还能表示不同人类外观的人类姿势,从而可以轻松地将人类演示者的运动映射到人形机器人。
基于视频生成规划
有了任务相关的物体和重建出来的人类运动,OKAMI 就可以基于 V 生成用于完成每个子目标的参考规划了。
OKAMI 识别子目标的方式是基于以下流程执行时间分割:
首先使用 CoTracker 跟踪关键点,并检测关键点的速度变化以确定关键帧,这些关键帧对应于子目标状态。
对于每个子目标,都确定一个目标物体(会因为操作而运动)和一个参考物体(通过接触或非接触关系作为目标物体运动的空间参考)。目标物体是根据每个物体的平均关键点速度确定的,而参考物体则通过 GPT-4V 预测的几何启发式或语义关系来识别。
确定子目标和相关物体后,生成一个参考规划 l_0, l_1, . . . , l_N,其中每一步 l_i 都对应于一个关键帧,并且包含目标物体 o_target、参考问题 o_reference 和 SMPL-H 轨迹段 朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐的点云。
物体感知型重定向
有了来自演示视频的参考规划后,OKAMI 便可以让人形机器人模仿 V 中的任务。机器人会遵循规划中的每个步骤 l_i。然后经过重新定向的轨迹会被转换成关节指令。这个过程一直重复直到任务完成,之后基于任务特定的条件来评估是否成功。
在测试时间定位物体
为了在测试时间环境中执行规划,OKAMI 必须定位机器人观察中的相关物体,提取 3D 点云来跟踪物体位置。通过关注与任务相关的物体,OKAMI 策略可以泛化用于各不相同的视觉背景,包括不同的背景或任务相关物体新实例。
将人类运动重新定位到人形机器人
物体感知的关键是使运动适应新的物体位置。在定位物体后,OKAMI 会采用一种分解式重新定位过程,即分别合成手臂和手部运动。
OKAMI 首先根据物体位置调整手臂运动,以便将手指置于以物体为中心的坐标系内。然后,OKAMI 只需在关节配置中重新定位手指,以模仿演示者用手与物体交互的方式。
具体来说,首先将人体运动映射到人形机器人的任务空间,缩放和调整轨迹以考虑尺寸和比例的差异。然后,OKAMI 扭曲变形(warp)重新定位的轨迹,以便机器人的手臂到达新的物体位置。该团队考虑了两种轨迹变形情况 —— 当目标和参考物体之间的关系状态不变时以及当关系状态发生变化时,相应地调整变形。
在第一种情况下,仅基于目标物体位置执行轨迹变形。在第二种情况下,基于参考物体位置执行变形。
变形之后,使用逆动力学计算机器臂的关节配置序列,同时平衡逆运动学计算中的位置和旋转目标的权重以保持自然姿势。同时,将人类手部姿势重新定位到机器人的手指关节,使机器人能够执行精细的操作。
最后,可得到一套全身关节配置轨迹。由于机器臂运动重新定向是仿射式的,因此这个过程可以自然地适应不同演示者的情况。通过调整手臂轨迹以适应物体位置并独立重新定位手部姿势,OKAMI 可实现跨各种空间布局的泛化。
实验及结果
研究者在实验部分主要回答了以下四个研究问题:
OKAMI 能否有效地让人形机器人基于单个人类演示视频来模仿各种操作任务?
在 OKAMI 中,将演示者的身体动作重新定位到人形机器人身上是否重要,以及为什么没有选择仅根据物体位置进行重新定位?
OKAMI 能否在多样化人体统计学特征的人类演示视频中始终保持自身性能?
OKAMI 生成的展示(rollout)是否可以用来训练闭环视觉运动策略?
任务设计。研究者在实验中执行了六项任务,分别如下:
朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐
将毛绒玩具放入篮子里(Plush-toy-in-basket)
将少许盐撒入碗中(Sprinkle-salt)
关上抽屉(Close-the-drawer)
合上笔记本电脑的盖子(Close-the-laptop)
将一袋零食放在盘子上(Place-snacks-on-plate)
将薯片袋放入购物袋中(Bagging)
硬件设置。研究者使用 Fourier GR1 机器人作为自己的硬件平台,配备了两个 6 自由度(DoF)的 Inspire 灵巧手以及一个用来录制视频和进行测试时观察的 D435i Intel RealSense 摄像头。此外还实现了一个以 400Hz 运行的关节位置控制器。为了避免出现抖动,研究者以 40Hz 来计算关节位置命令,并将命令插入 400Hz 轨迹。
评估方案。研究者针对每项任务运行了 12 次试验。过程中,物体的位置在机器人摄像头视野和人形手臂可触及范围的交点内进行随机初始化。
基线。研究者将 OKAMI 与基线 ORION 进行了比较。
定性结果
为了回答问题 1),研究者评估了 OKAMI 在所有任务中的策略,覆盖日常取放、倾倒和操纵铰接物体等多样性行为。结果如下图 4(a)所示,实验中随机初始化了物体位置,这样做让机器人需要适应物体的位置。从结果来看,OKAMI 可以有效地泛化到不同的视觉和空间条件。
为了回答问题 2),研究者在两项代表性任务上将 OKAMI 与 ORION 进行比较,分别是将 Place-snacks-on-plate 和 Close-the-laptop。二者的不同之处在于 ORION 不以人类身体姿态为条件。结果显示,OKAMI 在两项任务上分别实现了 75.0% 和 83.3% 的成功率,而 ORION 分别只有 0.0% 和 41.2%,拉开了很大的差距。
为了回答问题 3),研究者进行了一项受控实验,记录了不同演示者的视频,并测试 OKAMI 策略是否对所有视频输入都能保持良好的性能。同样地,他们选择的任务是 Place-snacks-on-plate 和 Close-the-laptop,结果如图 4(b)所示。
总体而言,OKAMI 能够在处理不同演示者的视频时保持相当不错的性能,不过处理这类多样性的视觉 pipeline 仍有改进的空间。
朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐
利用 OKAMI Rollout 数据学习视觉运动策略
为了解决问题 4),研究者在 OKAMI rollout 上训练了神经视觉运动策略。他们首先在随机初始化的物体 rollout 上运行 OKAMI,并在收集一个包含成功轨迹的数据集同时丢弃失败的轨迹。此外他们通过行为克隆算法在该数据集上训练神经网络策略,并为 Sprinkle-salt 和 Bagging 两项任务训练视觉运动策略。
下图 5 展示了这些策略的成功率,表明 OKAMI rollout 可以成为有效的训练数据源。并且,随着收集到的 rollout 增多,学习到的策略会随之改进。这些结果有望扩展数据收集范围,从而无需费力远程操作也能学习人形机器人操作技能。
局限性和未来工作
OKAMI 虽强,但也并不完美,下面展示了两个失败实例:
朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐
朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐
OKAMI 目前专注于人形机器人的上半身运动重定向,尤其是用于桌面工作空间的操控任务。因此未来有希望扩展到下半身重定向,以便在视频模仿期间实现运动行为。更进一步,实现全身运动操控则需要一个全身运动控制器,而不是 OKAMI 中使用的关节控制器。
此外,研究者在 OKAMI 中依赖 RGB-D 视频,这限制了他们使用以 RGB 记录的野外互联网视频。因此扩展 OKAMI 使用网络视频将是未来另一个有潜力的研究方向。最后,当前重定向的实现在面对物体的形状变化较大时表现出了较弱的稳健性。
未来的改进将是整合更强大的基础模型,使机器人能够总体了解如何与一类物体进行交互,即使这类物体的形状变化很大。
参考链接:
https://x.com/yukez/status/1848373529386860933

以上就是朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/413633.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月7日 00:15:04
下一篇 2025年11月7日 00:16:19

相关推荐

  • 特 朗普(Trump)唯一顶级叙事,WLFI有哪些相关概念项目可以关注?

    在当前快速变化的市场环境中,特定叙事往往能引爆巨大的关注度。其中,与知名政治人物相关的概念,即“PoliFi”,正逐渐成为一个不可忽视的赛道。唐纳德·Trump作为一位极具话题性和影响力的公众人物,其相关的文化符号和口号自然而然地延伸到了数字资产领域。 所谓的“WLFI”(Wolf of All S…

    2025年12月11日
    000
  • CAMP Network(CAMP币)是什么?怎么样?CAMP代币经济与未来前景分析

    目录 什么是CAMP Network来源证明协议CAMP 代币经济主要交易所上市及机构支持技术基础设施和可扩展性解决方案AI代理集成和货币化机会CAMP币价格长期预测CAMP2025 年价格预测CAMP2026-2031 年价格预测CAMP2031-2036 年价格预测投资考虑和风险分析增长潜力因素…

    2025年12月11日
    000
  • 喜报:比特币(BTC)「喇叭」形态指向26万美元目标位,技术指标发出「超卖」警报

    目录 关键要点:BTC价格本轮周期或挑战26万美元大关短期持有者MVRV指标跌至四月以来最低水平 ‍ 尽管比特币价格从历史高点回落12%,但短期持有者的MVRV指标已进入超卖区域,暗示底部或将形成,未来有望推动价格向26万美元迈进。 关键要点: 比特币呈现看涨扩音器形态,预示本轮周期内价格可能上探1…

    2025年12月11日
    000
  • 加密货币行情软件APP有哪些好用的?2025加密货币行情软件APP下载

    看行情首选CoinMarketCap或CoinGecko查基础数据,TradingView做技术分析,Coinglass监控合约风险,三者结合覆盖看涨跌、画图、玩期货需求。 想知道看行情用什么APP好,其实关键看你主要用来做什么。是想简单看看价格涨跌,还是做深入的技术分析,又或者盯着合约爆仓数据?不…

    2025年12月11日
    000
  • 以太坊领先,比特币落后:山寨季即将到来?

    目录 2025 年山寨币季:我们终于到了吗?比特币的主导地位面临压力以太坊成为专注山寨币季节指数:仍中性机构资本:一把双面刃供应过剩与Memecoin 的兴起选择性叙事驱动的循环Altseason 的怀疑论者加密货币ETF的作用2025年的结构性逆风需要改变什么更成熟、更具选择性的市场 2025 年…

    2025年12月11日
    000
  • OpenLedger(OPEN币)是什么?值得入手吗?OPEN币技术架构、代币经济学及路线图介绍

    目录 项目概述:定位与价值主张价值主张与比较架构:数据网 × 归因证明 × 模型工厂 × 部署数据网归因证明模型工厂OpenLoRA与高效部署链上追踪和 API代币经济学(OPEN):供应、分配、效用供应与发行分配与归属实用性和价值生态系统合作伙伴和应用方向典型的采用路径近期进展和外部驱动因素代币和…

    2025年12月11日
    000
  • Render(RNDR币)是什么?为什么要买RNDR 代币?工作原理、代币介绍

    目录 Render 是什么?2025 年加密与渲染快照渲染网络的工作原理渲染工作中的关键加密创新RNDR 代币和销毁铸造平衡(BME)渲染网络解决了什么问题?为什么要购买 RNDR 代币?渲染网络原点渲染代币经济学和加密货币增长RNDR币会是下一个SOL币吗?RNDR会成为下一个百倍币吗? Rend…

    2025年12月11日
    000
  • 加密货币实时行情软件APP全球排名top10一览

    币安Binance以10万+代币覆盖和AI分析领先,适合全类型交易者;2. OKX强在衍生品与Web3整合,适合策略用户;3. CoinMarketCap数据全面,热力图助力趋势判断;4. CoinGecko透明度高,涵盖DeFi与NFT深度指标;5. Gate.io专注小币种与高收益理财;6. C…

    2025年12月11日
    000
  • 欧义子帐户创建指南:手机版、电脑版操作详细图解,优缺点解析!

    目录 什么是子帐户?手机版用户创立子帐户流程教学第一步:点选OKX手机版左上角选单,进入设置页面第二步:于设置页面点选右上角人头第三步:于切换帐号页面,点选最底下的「创建子帐户」第四步:选择子帐户类型第五步:输入子帐户名称、启用入金功能第六步:完成创建OKX电脑版开设子帐户图文教学第一步:点选OKX…

    2025年12月11日 好文分享
    000
  • 全球加密货币市值前十位介绍

    比特币是数字黄金,以太坊为智能合约平台,泰达币作法币桥梁,其他主流币覆盖支付、跨链、DeFi等生态,共同构成加密市场核心格局。 目前全球加密货币市场中,市值排名靠前的项目各有特点,覆盖了支付、智能合约、稳定币和跨链等多个方向。以下是基于近期市场数据整理的前十位加密货币介绍,帮助你快速了解它们的核心定…

    2025年12月11日
    000
  • WLFI 代币上线在即:您需要了解的有关其发行和治理的一切

    目录 WLFI 代币与世界自由金融的介绍WLFI 代币发行细节与时间表代币分配与治理结构世界自由金融的DeFi 生态系统与目标USD1 稳定币及其支持机制预售资金与投资者参与ALT5 Sigma 的角色与财务策略社群治理与利益相关者一致性法规审查与市场风险政治关联及其对采用的影响结论 WLFI 代币…

    2025年12月11日
    000
  • 什么是“Gas费”,为什么这么高?一文带你了解Gas费

    binance币安交易所 注册入口: APP下载: 欧易OKX交易所 注册入口: APP下载: 火币交易所: 注册入口: APP下载: 在区块链的世界里,特别是以以太坊为代表的智能合约平台,用户在进行任何操作时几乎都会遇到一个概念——“Gas 费”。这个词汇对于初次接触的人来说可能有些陌生,但它却是…

    2025年12月11日
    000
  • 一文带你了解HODL、FUD 和 FOMO 是什么意思?

    在数字资产和投资领域,社群中流传着许多独特的术语和俚语,它们构成了这个圈子独特的文化。对于初入此领域的人来说,理解这些词汇是融入社群交流的第一步。HODL、FUD 和 FOMO 是其中最广为人知、使用频率最高的三个词。它们各自代表了一种特定的心态和行为,深刻地影响着市场参与者的决策过程。了解这些术语…

    2025年12月11日
    000
  • 什么是加密套利?如何实现低风险获利?一文介绍

    目录 什么是加密货币套利交易及其运作方式?为什么加密货币市场会存在价格差异?加密货币套利如何运作不同类型的加密货币套利交易策略有哪些?加密货币套利获利性如何?套利交易中的成本低风险加密货币套利交易的最佳实践进行加密货币套利时需管理的关键风险与挑战结语加密货币套利常见问题解答1. 加密货币套利真的可行…

    2025年12月11日 好文分享
    000
  • 区块链和稳定币区别、交易软件通俗讲解

    还在为找不到合适的AI绘画工具而烦恼吗?本文精选了当前市场上备受好评的五款AI图像生成器,通过对比它们的核心特点、使用门槛和创作效果,帮助你快速找到最适合自己的那一款,轻松将想象力变为现实。 一、Midjourney:艺术的巅峰 1、图像质量:以其无与伦比的艺术感和照片级真实感著称,生成的图像细节丰…

    2025年12月11日
    000
  • 加密货币行情分析用什么好?币圈行情软件排行

    2025年主流行情与分析工具中,CoinGecko和CoinMarketCap适合查基础数据,TradingView是技术分析首选,币安、OKX等交易所App则实现看盘与交易一体化,用户可根据需求选择。 看行情和做分析,选对工具特别关键。2025年来看,没有一个软件能解决所有问题,但根据你的需求,比…

    2025年12月11日
    000
  • 什么是交易哈希 (TxID)?通俗解释交易哈希 (TxID)是什么

    binance币安交易所 注册入口: APP下载: 欧易OKX交易所 注册入口: APP下载: 火币交易所: 注册入口: APP下载: 在数字货币的世界里,每一笔交易的发生都需要一个可靠的方式来记录和追踪。交易哈希 (TxID),也被称为交易ID或交易哈希值,扮演的正是这样一个角色。我们可以把它想象…

    2025年12月11日
    000
  • “链上”和“链下”分别是什么意思?一文带你搞懂!

    binance币安交易所 注册入口: APP下载: 欧易OKX交易所 注册入口: APP下载: 火币交易所: 注册入口: APP下载: 在探讨区块链技术时,“链上”和“链下”是两个频繁被提及的核心概念。它们描述了数据处理和交易发生的不同位置,直接关系到区块链网络的效率、成本和安全性。理解这两个术语的…

    2025年12月11日
    000
  • 加密货币基金是什么?12种主流加密货币基金一览

    对于希望涉足数字资产领域但又不想直接管理私钥的投资者而言,加密货币基金提供了一种便捷且专业的途径。这类基金汇集资金,由专业团队投资于一系列加密资产或区块链项目中,旨在分散风险并捕捉行业增长机会。本文将为您介绍什么是加密货币基金,并梳理12个行业内主流的基金,帮助您更好地了解这个赛道。 一、 加密货币…

    2025年12月11日
    000
  • 加密货币能长期投资吗?加密货币哪些是真的哪些是假的?

    随着人工智能技术的飞速发展,AI绘画已成为创意领域的一大热点。本文将为您盘点并详细介绍2024年最受瞩目的五款AI绘画工具,帮助您无论新手还是专业人士,都能快速找到最适合自己的创作利器,开启无限的想象力之旅。 一、Midjourney 1、图像质量的标杆:midjourney以其生成图像的惊人艺术感…

    2025年12月11日
    000

发表回复

登录后才能评论
关注微信