朱玉可团队新作：看一眼就能模仿，大模型让机器人轻松学会撒盐

程序猿 • 2025年11月7日 00:15:43 • 用户投稿 • 阅读 2

在人形机器人领域，有一个非常值钱的问题：既然人形机器人的样子与人类类似，那么它们能使用网络视频等数据进行学习和训练吗？

如果可以，那考虑到网络视频的庞大规模，机器人就再也不用担心没有学习资源了。

近日，德克萨斯大学奥斯汀分校和 NVIDIA Research 的朱玉可团队公布了他们的一篇 CoRL 2024 oral 论文，其中提出了一种名为 OKAMI 的方法，可基于单个 RGB-D 视频生成操作规划并推断执行策略。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

朱玉可团队新作：看一眼就能模仿，大模型让机器人轻松学会撒盐

论文地址：OKAMI: Teaching Humanoid Robots Manipulation Skills through Single Video Imitation

论文链接：https://arxiv.org/pdf/2410.11792

项目地址：https://ut-austin-rpl.github.io/OKAMI/

先来看看演示视频：

可以看到，机器人在看过人类演示者向袋子中装东西后，也学会了以同样的动作向袋子中装东西。不仅如此，OKAMI 还能让人形机器人看一眼演示视频就轻松学会撒盐、将玩具放进篮子和合上笔记本电脑等任务。

和 AI 领域内的许多技术一样，OKAMI 也是一个缩写词，全称是 Object-aware Kinematic retArgeting for huManoid Imitation，即用于人形机器人模仿的物体感知型动力学重定向。

顾名思义，这是一种物体感知型重定向方法，可以让具有两个灵巧机器手的双手型人形机器人基于单个 RGB-D 视频演示模仿其中的操作行为。

OKAMI 方法详解

OKAMI 采用了一种两阶段过程，可将人类运动重新定向成人形机器人的运动，从而可在不同初始条件下完成任务。

在第一个阶段，OKAMI 会处理视频并生成一个参考操作规划。

在第二个阶段，OKAMI 会使用该规划来合成人形机器人的运动，这个过程会用到运动重定向，其作用是适应目标环境中的物体位置。

图 2 展示了其整个工作流程。

问题描述

首先，该团队将人形机器人操作任务描述成了一个离散时间马尔可夫决策过程，并将其定义成了一个元组 M = (S, A, P, R, γ, µ)。其中 S 是状态空间、A 是动作空间、P (・|s, a) 是转移概率、R (s) 是奖励函数、γ ∈ [0, 1) 是折扣因子、µ 是初始状态分布。

在这里，S 就是原始 RGB-D 观察的空间，其中包含机器人和物体的状态；A 则是人形机器人的运动指令的空间；R 是一个稀疏的奖励函数 —— 当任务完成时，返回 1。对于一个任务，其目标是找到一个策略 π，使其可以在测试时间最大化大量不同的初始配置下的预期任务成功率。

他们考虑了「基于观察的开放世界模仿」设置。在该设置中，这个机器人系统会获得一段录制的 RGB-D 人类视频 V，然后其需要返回一个人形机器人操作策略 π，使机器人可以完成视频演示的任务。

参考规划生成

为了实现物体感知型重新定向，OKAMI 首先会为人形机器人生成一个参考规划。规划生成需要了解有哪些与任务相关的物体以及人类如何操作它们。

识别和定位与任务相关的物体

为了模仿视频 V 中的操作任务，OKAMI 必须识别要交互的物体。之前的方法需要具有简单背景的无监督方法或需要额外的人工标注，而 OKAMI 则不一样，其使用了现成可用的视觉 – 语言模型（VLM）GPT-4V 来识别 V 中与任务相关的物体；这自然是用到了该模型中内化的常识性知识

具体来说，OKAMI 会通过采样 RGB 帧并使用 GPT-4V 来获取与任务相关的物体的名称。使用这些名称，OKAMI 再使用 Grounded-SAM 来分割第一帧中的物体并使用视频目标分割模型 Cutie 来跟踪这些物体的位置。

重建人类运动

为了将人类运动重新定向成机器人运动，OKAMI 会重建来自 V 的人类运动以获取运动轨迹。为此，他们采用了改进版的 SLAHMR，这是一种用于重建人类运动序列的迭代式优化算法。虽然 SLAHMR 假设双手平放，而新的扩展优化了 SMPL-H 模型的手部姿势，这些姿势使用来自 HaMeR 的估计手部姿势进行初始化。此修改使得单目视频中的身体和手部姿势可以进行联合优化。其输出是一个获取了全身和手部姿势的 SMPL-H 模型序列，让 OKAMI 可以将人类动作重新定向到人形机器人。

此外，SMPL-H 模型还能表示不同人类外观的人类姿势，从而可以轻松地将人类演示者的运动映射到人形机器人。

基于视频生成规划

有了任务相关的物体和重建出来的人类运动，OKAMI 就可以基于 V 生成用于完成每个子目标的参考规划了。

OKAMI 识别子目标的方式是基于以下流程执行时间分割：

首先使用 CoTracker 跟踪关键点，并检测关键点的速度变化以确定关键帧，这些关键帧对应于子目标状态。

对于每个子目标，都确定一个目标物体（会因为操作而运动）和一个参考物体（通过接触或非接触关系作为目标物体运动的空间参考）。目标物体是根据每个物体的平均关键点速度确定的，而参考物体则通过 GPT-4V 预测的几何启发式或语义关系来识别。

确定子目标和相关物体后，生成一个参考规划 l_0, l_1, . . . , l_N，其中每一步 l_i 都对应于一个关键帧，并且包含目标物体 o_target、参考问题 o_reference 和 SMPL-H 轨迹段

的点云。

物体感知型重定向

有了来自演示视频的参考规划后，OKAMI 便可以让人形机器人模仿 V 中的任务。机器人会遵循规划中的每个步骤 l_i。然后经过重新定向的轨迹会被转换成关节指令。这个过程一直重复直到任务完成，之后基于任务特定的条件来评估是否成功。

在测试时间定位物体

为了在测试时间环境中执行规划，OKAMI 必须定位机器人观察中的相关物体，提取 3D 点云来跟踪物体位置。通过关注与任务相关的物体，OKAMI 策略可以泛化用于各不相同的视觉背景，包括不同的背景或任务相关物体新实例。

将人类运动重新定位到人形机器人

物体感知的关键是使运动适应新的物体位置。在定位物体后，OKAMI 会采用一种分解式重新定位过程，即分别合成手臂和手部运动。

OKAMI 首先根据物体位置调整手臂运动，以便将手指置于以物体为中心的坐标系内。然后，OKAMI 只需在关节配置中重新定位手指，以模仿演示者用手与物体交互的方式。

具体来说，首先将人体运动映射到人形机器人的任务空间，缩放和调整轨迹以考虑尺寸和比例的差异。然后，OKAMI 扭曲变形（warp）重新定位的轨迹，以便机器人的手臂到达新的物体位置。该团队考虑了两种轨迹变形情况 —— 当目标和参考物体之间的关系状态不变时以及当关系状态发生变化时，相应地调整变形。

在第一种情况下，仅基于目标物体位置执行轨迹变形。在第二种情况下，基于参考物体位置执行变形。

变形之后，使用逆动力学计算机器臂的关节配置序列，同时平衡逆运动学计算中的位置和旋转目标的权重以保持自然姿势。同时，将人类手部姿势重新定位到机器人的手指关节，使机器人能够执行精细的操作。

最后，可得到一套全身关节配置轨迹。由于机器臂运动重新定向是仿射式的，因此这个过程可以自然地适应不同演示者的情况。通过调整手臂轨迹以适应物体位置并独立重新定位手部姿势，OKAMI 可实现跨各种空间布局的泛化。

实验及结果

研究者在实验部分主要回答了以下四个研究问题：

OKAMI 能否有效地让人形机器人基于单个人类演示视频来模仿各种操作任务？

在 OKAMI 中，将演示者的身体动作重新定位到人形机器人身上是否重要，以及为什么没有选择仅根据物体位置进行重新定位？

OKAMI 能否在多样化人体统计学特征的人类演示视频中始终保持自身性能？

OKAMI 生成的展示（rollout）是否可以用来训练闭环视觉运动策略？

任务设计。研究者在实验中执行了六项任务，分别如下：

将毛绒玩具放入篮子里（Plush-toy-in-basket）

将少许盐撒入碗中（Sprinkle-salt）

关上抽屉（Close-the-drawer）

合上笔记本电脑的盖子（Close-the-laptop）

将一袋零食放在盘子上（Place-snacks-on-plate）

将薯片袋放入购物袋中（Bagging）

硬件设置。研究者使用 Fourier GR1 机器人作为自己的硬件平台，配备了两个 6 自由度（DoF）的 Inspire 灵巧手以及一个用来录制视频和进行测试时观察的 D435i Intel RealSense 摄像头。此外还实现了一个以 400Hz 运行的关节位置控制器。为了避免出现抖动，研究者以 40Hz 来计算关节位置命令，并将命令插入 400Hz 轨迹。

评估方案。研究者针对每项任务运行了 12 次试验。过程中，物体的位置在机器人摄像头视野和人形手臂可触及范围的交点内进行随机初始化。

基线。研究者将 OKAMI 与基线 ORION 进行了比较。

定性结果

为了回答问题 1），研究者评估了 OKAMI 在所有任务中的策略，覆盖日常取放、倾倒和操纵铰接物体等多样性行为。结果如下图 4（a）所示，实验中随机初始化了物体位置，这样做让机器人需要适应物体的位置。从结果来看，OKAMI 可以有效地泛化到不同的视觉和空间条件。

为了回答问题 2），研究者在两项代表性任务上将 OKAMI 与 ORION 进行比较，分别是将 Place-snacks-on-plate 和 Close-the-laptop。二者的不同之处在于 ORION 不以人类身体姿态为条件。结果显示，OKAMI 在两项任务上分别实现了 75.0% 和 83.3% 的成功率，而 ORION 分别只有 0.0% 和 41.2%，拉开了很大的差距。

为了回答问题 3），研究者进行了一项受控实验，记录了不同演示者的视频，并测试 OKAMI 策略是否对所有视频输入都能保持良好的性能。同样地，他们选择的任务是 Place-snacks-on-plate 和 Close-the-laptop，结果如图 4（b）所示。

总体而言，OKAMI 能够在处理不同演示者的视频时保持相当不错的性能，不过处理这类多样性的视觉 pipeline 仍有改进的空间。

利用 OKAMI Rollout 数据学习视觉运动策略

为了解决问题 4），研究者在 OKAMI rollout 上训练了神经视觉运动策略。他们首先在随机初始化的物体 rollout 上运行 OKAMI，并在收集一个包含成功轨迹的数据集同时丢弃失败的轨迹。此外他们通过行为克隆算法在该数据集上训练神经网络策略，并为 Sprinkle-salt 和 Bagging 两项任务训练视觉运动策略。

下图 5 展示了这些策略的成功率，表明 OKAMI rollout 可以成为有效的训练数据源。并且，随着收集到的 rollout 增多，学习到的策略会随之改进。这些结果有望扩展数据收集范围，从而无需费力远程操作也能学习人形机器人操作技能。

局限性和未来工作

OKAMI 虽强，但也并不完美，下面展示了两个失败实例：

OKAMI 目前专注于人形机器人的上半身运动重定向，尤其是用于桌面工作空间的操控任务。因此未来有希望扩展到下半身重定向，以便在视频模仿期间实现运动行为。更进一步，实现全身运动操控则需要一个全身运动控制器，而不是 OKAMI 中使用的关节控制器。

此外，研究者在 OKAMI 中依赖 RGB-D 视频，这限制了他们使用以 RGB 记录的野外互联网视频。因此扩展 OKAMI 使用网络视频将是未来另一个有潜力的研究方向。最后，当前重定向的实现在面对物体的形状变化较大时表现出了较弱的稳健性。

未来的改进将是整合更强大的基础模型，使机器人能够总体了解如何与一类物体进行交互，即使这类物体的形状变化很大。

参考链接：

https://x.com/yukez/status/1848373529386860933

以上就是朱玉可团队新作：看一眼就能模仿，大模型让机器人轻松学会撒盐的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/413633.html

ai follow git okami warp 人形机器人工程

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

详细介绍Mysql中的4种日志

上一篇 2025年11月7日 00:15:39

Steam限时喜加一！《WHAT THE PAK?!》现可免费领取

下一篇 2025年11月7日 00:15:44

好文分享

Uniapp 中如何不拉伸不裁剪地展示图片？

灵活展示图片：如何不拉伸不裁剪在界面设计中，常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。对于不同尺寸的图片，可以采用以下处理方式：极端宽高比：撑满屏幕宽度或高度，再等比缩放居中。非极端宽高比：居中显示，若能撑满则撑满。然而，如果需要不拉伸不…

程序猿
2025年12月24日
4000
好文分享

如何让小说网站控制台显示乱码，同时网页内容正常显示？

如何在不影响用户界面的情况下实现控制台乱码？当在小说网站上下载小说时，大家可能会遇到一个问题：网站上的文本在网页内正常显示，但是在控制台中却是乱码。如何实现此类操作，从而在不影响用户界面（UI）的情况下保持控制台乱码呢？答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体，并通过在客户端…

程序猿
2025年12月24日
8000
好文分享

如何在地图上轻松创建气泡信息框？

地图上气泡信息框的巧妙生成地图上气泡信息框是一种常用的交互功能，它简便易用，能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。利用地图库的原生功能大多数地图库，如高德地图，都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现：高德地图 JS API 参考文…

程序猿
2025年12月24日
4000
好文分享

如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画？

如何实现元素scrollleft变化时的平滑动画效果？在许多网页应用中，滚动容器的水平滚动条（scrollleft）需要频繁使用。为了让滚动动作更加自然，你希望给scrollleft的变化添加动画效果。解决方案：scroll-behavior 属性要实现scrollleft变化时的平滑动画效果…

程序猿
2025年12月24日
0000
好文分享

如何为滚动元素添加平滑过渡，使滚动条滑动时更自然流畅？

给滚动元素平滑过渡如何在滚动条属性（scrollleft）发生改变时为元素添加平滑的过渡效果？解决方案：scroll-behavior 属性为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码： click the button to slide right!…

程序猿
2025年12月24日
6000
好文分享

如何选择元素个数不固定的指定类名子元素？

灵活选择元素个数不固定的指定类名子元素在网页布局中，有时需要选择特定类名的子元素，但这些元素的数量并不固定。例如，下面这段 html 代码中，activebar 和 item 元素的数量均不固定： *n *n 如果需要选择第一个 item元素，可以使用 css 选择器 :nth-child()。该…

程序猿
2025年12月24日
3000
好文分享

使用 SVG 如何实现自定义宽度、间距和半径的虚线边框？

使用 svg 实现自定义虚线边框如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片，但是这种方法存在引入外部资源、性能低下的缺点。为了避免上述问题，可以使用 svg（可缩放矢量图形）来创建纯代码实现。一种方…

程序猿
2025年12月24日
2000
好文分享

如何让“元素跟随文本高度，而不是撑高父容器？

如何让元素跟随文本高度，而不是撑高父容器在页面布局中，经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中，父容器被较高的图片撑开，而文本的高度没有被考虑。本问答将提供纯css解决方案，让图片跟随文本高度，确保父容器的高度不会被图片影响。解决方法为了解决这个问题，需要将图片从文档流中脱离…

程序猿
2025年12月24日
1000
好文分享

为什么 CSS mask 属性未请求指定图片？

解决 css mask 属性未请求图片的问题在使用 css mask 属性时，指定了图片地址，但网络面板显示未请求获取该图片，这可能是由于浏览器兼容性问题造成的。问题如下代码所示：立即学习“前端免费学习笔记（深入）”； icon [data-icon=”cloud”] { –icon-cl…

程序猿
2025年12月24日
3000
好文分享

如何利用 CSS 选中激活标签并影响相邻元素的样式？

如何利用 css 选中激活标签并影响相邻元素？为了实现激活标签影响相邻元素的样式需求，可以通过 :has 选择器来实现。以下是如何具体操作：对于激活标签相邻后的元素，可以在 css 中使用以下代码进行设置： li:has(+li.active) { border-radius: 0 0 10px…

程序猿
2025年12月24日
2000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
3000
好文分享

为什么我的 Safari 自定义样式表在百度页面上失效了？

为什么在 Safari 中自定义样式表未能正常工作？在 Safari 的偏好设置中设置自定义样式表后，您对其进行测试却发现效果不同。在您自己的网页中，样式有效，而在百度页面中却失效。造成这种情况的原因是，第一个访问的项目使用了文件协议，可以访问本地目录中的图片文件。而第二个访问的百度使用了 ht…

程序猿
2025年12月24日
1000
好文分享

如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果？

如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果，可以通过以下途径： CSS 解决方案 DEMO 1: Windows 10 网格悬停效果：https://codepen.io/tr4553r7/pe…

程序猿
2025年12月24日
1000
好文分享

使用CSS mask属性指定图片URL时，为什么浏览器无法加载图片？

css mask属性未能加载图片的解决方法使用css mask属性指定图片url时，如示例中所示： mask: url(“https://api.iconify.design/mdi:apple-icloud.svg”) center / contain no-repeat; 但是，在网络面板中却…

程序猿
2025年12月24日
1000
好文分享

如何用CSS Paint API为网页元素添加时尚的斑马线边框？

为元素添加时尚的斑马线边框在网页设计中，有时我们需要添加时尚的边框来提升元素的视觉效果。其中，斑马线边框是一种既醒目又别致的设计元素。实现斜向斑马线边框要实现斜向斑马线间隔圆环，我们可以使用css paint api。该api提供了强大的功能，可以让我们在元素上绘制复杂的图形。立即学习“前端…

程序猿
2025年12月24日
1000
好文分享

图片如何不撑高父容器？

如何让图片不撑高父容器？当父容器包含不同高度的子元素时，父容器的高度通常会被最高元素撑开。如果你希望父容器的高度由文本内容撑开，避免图片对其产生影响，可以通过以下 css 解决方法：绝对定位元素： .child-image { position: absolute; top: 0; left: …

程序猿
2025年12月24日
1000
CSS 帮助

我正在尝试将文本附加到棕色框的左侧。我不能。我不知道代码有什么问题。请帮助我。 css .hero { position: relative; bottom: 80px; display: flex; justify-content: left; align-items: start; color:…

程序猿
2025年12月24日 • 好文分享
3000
好文分享

HTML、CSS 和 JavaScript 中的简单侧边栏菜单

构建一个简单的侧边栏菜单是一个很好的主意，它可以为您的网站添加有价值的功能和令人惊叹的外观。侧边栏菜单对于客户找到不同项目的方式很有用，而不会让他们觉得自己有太多选择，从而创造了简单性和秩序。今天，我将分享一个简单的 HTML、CSS 和 JavaScript 源代码来创建一个简单的侧边栏菜单。…

程序猿
2025年12月24日
5000
好文分享

前端代码辅助工具：如何选择最可靠的AI工具？

前端代码辅助工具：可靠性探讨对于前端工程师来说，在HTML、CSS和JavaScript开发中借助AI工具是司空见惯的事情。然而，并非所有工具都能提供同等的可靠性。个性化需求关于哪个AI工具最可靠，这个问题没有一刀切的答案。每个人的使用习惯和项目需求各不相同。以下是一些影响选择的重要因素：立…

程序猿
2025年12月24日
1000
好文分享

带有 HTML、CSS 和 JavaScript 工具提示的响应式侧边导航栏

响应式侧边导航栏不仅有助于改善网站的导航，还可以解决整齐放置链接的问题，从而增强用户体验。通过使用工具提示，可以让用户了解每个链接的功能，包括设计紧凑的情况。在本教程中，我将解释使用 html、css、javascript 创建带有工具提示的响应式侧栏导航的完整代码。对于那些一直想要一个干净、简…

程序猿
2025年12月24日
1000

发表回复

登录后才能评论

朱玉可团队新作：看一眼就能模仿，大模型让机器人轻松学会撒盐

关于作者

相关推荐

发表回复