语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界

重写内容为:机器之心报道

编辑:杜伟、小舟

GPT-4 与机器人又擦出了新的火花。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界

在机器人领域,实现通用机器人策略需要大量数据,而在真实世界收集这些数据又耗时费力。尽管模拟为生成场景级和实例级的不同体量的数据提供了一种经济的解决方案,但由于需要大量的人力(尤其是对复杂任务),在模拟环境中增加任务多样性仍面临挑战。这就导致典型的人工模拟基准通常仅能包含数十到数百个任务。

如何解决呢?近年来,大语言模型在自然语言处理及各类任务的代码生成方面不断取得重大进展。同样,LLM 已经应用于机器人的多个方面,包括用户界面、任务和运动规划、机器人日志总结、成本和奖励设计,揭示了在物理基础和代码生成任务上的强大能力。

在近日的一项研究中,来自 MIT CSAIL、上海交通大学等机构的研究者进一步探究 LLM 是否可以用来创建多样化的模拟任务,并进一步挖掘它们的能力。

具体来讲,研究者提出了一种基于 LLM 的框架 GenSim,它为设计和验证任务资产安排、任务进展提供了一种自动化机制。更重要的是,生成的任务表现出了极大的多样性,促进了机器人策略的任务级泛化。此外从概念上讲,利用 GenSim,LLM 的推理和编码能力通过中间合成的模拟数据被提炼成了语言 – 视觉 – 行动策略。‍

语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界

需要重写的是:论文链接:

https://arxiv.org/pdf/2310.01361.pdf‍

GenSim 框架由以下三部分组成:

‍首先是通过自然语言指令提出新任务以及相应代码实现的提示机制; 其次是缓存以前生成的高质量指令代码以用于验证和语言模型微调的任务库,并作为综合任务数据集返回; 最后是利用生成的数据来增强任务级泛化能力的语言调整多任务策略训练流程。‍

同时该框架通过两种不同的模式运行。其中在目标导向设置中,用户有特定的任务或者希望设计一个任务课程。这时 GenSim 采取自上而下的方法,以预期任务作为输入,迭代地生成相关任务以实现预期目标。而在探索性环境中,如果缺少目标任务的先验知识,则 GenSim 逐渐探索现有任务以外的内容,并建立与任务无关的基础策略。

在下图 1 中,研究者初始化了包含 10 个人工策划任务的任务库,使用 GenSim 对它进行扩展并生成 100 多个任务。

语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界

研究者还提出了几个定制化的指标来渐进地衡量生成模拟任务的质量,并在目标导向和探索性设置中评估了几种 LLM。其中对于 GPT-4 生成的任务库,他们对 GPT-3.5 和 Code-Llama 等 LLM 进行有监督微调,进一步提升了 LLM 的任务生成性能。同时通过策略训练定量地衡量任务的可实现性,并提供不同属性的任务统计数据和不同模型之间的代码比较。

不仅如此,研究者还训练了多任务机器人策略,与仅仅在人工策划任务上训练的模型相比,这些策略在所有生成任务上都能很好地泛化,并提高了零样本泛化性能。其中与 GPT-4 生成任务的联合训练可以将泛化性能提升 50%,并在模拟中将大约 40% 的零样本任务迁移到新任务中。‍

最后,研究者还考虑了模拟到真实的迁移,表明在不同模拟任务上的预训练可以将真实世界的泛化能力提升 25%。

总之,在不同 LLM 生成的任务上训练的策略实现了对新任务的更好任务级泛化能力,彰显了通过 LLM 扩展模拟任务来训练基础策略的潜力。

Tenstorrent AI 产品管理总监 Shubham Saboo 给予了这项研究很高的评价,他表示,这是 GPT-4 结合机器人的突破性研究,通过 GPT-4 等 LLM 来生成 autopilot 上的一系列模拟机器人任务,使机器人的零样本学习和真实世界适应成为了现实。

语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界

方法介绍

如下图 2 所示,GenSim 框架通过程序合成生成模拟环境、任务和演示。GenSim pipeline 从任务创建器开始,prompt 链以两种模式运行,即目标导向模式和探索模式,具体取决于目标任务。GenSim 中的任务库是一个内存组件,用于存储之前生成的高质量任务,任务库中存储的任务可用于多任务策略训练或微调 LLM。

语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界

任务创建器

如下图 3 所示,语言链会首先生成任务描述,然后再生成相关的实现。任务描述包括任务名称、资源和任务摘要。该研究在 pipeline 中采用少样本 prompt 来生成代码。

语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界

任务库

GenSim 框架中的任务库会存储任务创建器生成的任务,以生成更好的新任务和训练多任务策略。任务库是根据人工创建的基准中的任务进行初始化的。

任务库为任务创建器为描述生成阶段提供了作为条件的先前的任务描述,为代码生成阶段提供了先前的代码,并 prompt 任务创建器从任务库中选择参考任务作为编写新任务的样例。完成任务实现并通过所有测试后,LLM 会被 prompt,以「反思(reflect)」新任务和任务库,并形成是否应将新生成的任务添加到库中的综合决策。

如下图 4 所示,该研究还观察到 GenSim 表现出有趣的任务级组合和外推行为:

语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界

LLM 监督的多任务策略

生成任务后,该研究使用这些任务实现来生成演示数据并训练操作策略,并使用与 Shridhar et al. (2022) 类似的双流传输网络架构。

如下图 5 所示,该研究将程序视为任务和相关演示数据的有效表征(图 5),就可以定义任务之间的嵌入空间,其距离指标对于来自感知的各种因素(例如对象姿态和形状)更加稳健。

语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界

为了实现内容的重写,需要将原文的语言改写为中文,不需要出现原句

该研究通过实验来验证 GenSim 框架,针对以下具体问题:(1)LLM 设计和实现模拟任务的效果如何?GenSim 可以改进 LLM 在任务生成方面的表现吗?(2) 对 LLM 生成的任务进行训练是否可以提高策略泛化能力?如果给出更多的生成任务,策略训练是否会受益更多?(3) 针对 LLM 生成的模拟任务进行预训练是否有利于现实世界的机器人策略部署?

评估 LLM 机器人模拟任务的泛化能力

如下图 6 所示,对于探索模式和目标导向模式任务生成,少样本和任务库的两阶段 prompt 链可以有效提高代码生成的成功率。

语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界

任务级泛化

对相关任务的少样本策略优化。从下图 7 左可以观察到,联合训练 LLM 生成的任务可以将原始 CLIPort 任务上的策略性能提升 50% 以上,尤其是在低数据情况(如 5 个 demo)下。

对未见过任务的零样本策略泛化。从图 7 中可以看到,通过对 LLM 生成的更多任务进行预训练,研究者的模型可以更好地泛化到原始 Ravens 基准中的任务。图 7 右中,研究者还对人工编写任务、闭源 LLM 和开源微调 LLM 等不同任务源上的 5 个任务进行了预训练,并观察到了类似的零样本任务级泛化。

语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界

使预训练模型适应真实世界

研究者将模拟环境中训练的策略迁移到了真实环境中。结果如下表 1 所示,在 70 个 GPT-4 生成的任务上进行预训练的模型在 9 个任务上进行了 10 次实验,取得 68.8% 的平均成功率,与仅在 CLIPort 任务上进行预训练的基线模型相比提升了 25% 以上,与仅在 50 个任务上预训练的模型相比提升了 15%。

语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界

研究者还观察到,对不同模拟任务的预训练提高了长期复杂任务的稳健性。比如说,GPT-4 预训练的模型在真实世界的 build-wheel 任务上表现出了更加稳健的性能。

语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界

消融实验

模拟训练成功率。在下表 2 中,研究者在拥有 200 个 demo 的生成任务子集上,演示了单任务和多任务策略训练的成功率。对于 GPT-4 生成任务的策略训练,它的平均任务成功率为单任务 75.8%,多任务 74.1%。

语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界

生成任务统计。下图 9 (a) 中,研究者展示了 LLM 生成的 120 个任务的不同特征的任务统计。其中 LLM 模型生成的颜色、资产、动作和实例数量之间存在着有趣的平衡。例如,生成的代码包含了很多超过 7 个对象实例的场景,以及很多拾起 – 放置原始动作和块等资产。

在代码生成的比较中,研究者在下图9(b)中对GPT-4和Code Llama的自上而下实验中的失败案例进行了定性评估

语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界

更多技术细节请参阅原论文。

以上就是语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/961668.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月1日 18:51:12
下一篇 2025年12月1日 18:51:34

相关推荐

  • css 什么语言

    CSS是一种用来表现HTML或XML等文件样式的计算机语言,是能够真正做到网页表现与内容分离的一种样式设计语言。CSS不仅可以静态地修饰网页,还可以配合各种脚本语言动态地对网页各元素进行格式化。 本教程操作环境:windows7系统、CSS3版、Dell G3电脑。 CSS是什么语言? CSS是一种…

    2025年12月24日
    000
  • 如何保持文本格式不变

    要保持文本格式不变,需根据需求选择合适格式:若需保留视觉与布局,使用PDF或.docx;若为纯文本或代码,应选用UTF-8编码的纯文本文件,并用专业编辑器处理,避免隐藏格式与乱码。 要保持文本格式不变,核心在于理解“不变”的语境是什么,以及你所处理的文本是“富文本”还是“纯文本”。通常,这意味着你需…

    2025年12月22日
    000
  • 揭秘HTTP状态码的语言奥秘

    HTTP状态码是网页开发中经常遇到的概念。它们以三位数字的形式出现,用于指示特定HTTP请求的处理结果。这些状态码不仅包含了基本的信息,还蕴含着一种语言的奥秘。本文将深入揭秘HTTP状态码的语言奥秘。 首先,我们要理解HTTP状态码是如何工作的。当客户端发送一个HTTP请求给服务器时,服务器会根据请…

    2025年12月22日
    000
  • 揭示的语言之谜:HTTP状态码

    HTTP是现代计算机网络中最常用的协议之一,而其中的状态码则是HTTP通信过程中非常重要的一部分。通过状态码,服务器可以向客户端传递各种信息,包括请求成功与否、请求重定向、请求错误等。尽管状态码只是简单的3位数字,但它们背后隐藏着许多语言之谜。 首先,我们来探索一下HTTP状态码的基本分类。按照类别…

    2025年12月22日
    000
  • 揭秘HTTP状态码的含义

    HTTP状态码是用于表示HTTP请求的结果的三位数字代码。这些状态码由HTTP协议规定,并且在与服务器进行通信时,它们扮演着非常重要的角色。尽管每个状态码都有其特定的含义,但是很少有人知道这些代码背后隐藏的深意和故事。本文将探秘HTTP状态码背后的语言之谜。 首先,我们来了解一下最常见的HTTP状态…

    2025年12月22日
    000
  • 掌握Canvas的跨语言兼容性

    随着互联网的快速发展,Web技术也在不断更新与演进。其中,HTML5标准的制定对于Web开发者来说,无疑是一个重大的进步。而HTML5的一个重要特性就是Canvas元素,它提供了一种使用JavaScript脚本进行绘制图形的方法。作为一个具有强大绘图功能的元素,Canvas在Web开发中越来越受到开…

    2025年12月21日
    000
  • html是一种页面什么型语言?

    html是一种页面“描述”型语言。HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字,图形、动画、声音、表格、链接等。 (推荐教程:html教程) html是一种页面“描述”型语言。 HTML(Hyper Text Mark-up Language)即超文本标记语言或超文本链接标…

    2025年12月21日
    000
  • HTML的语言编码有哪些

    在html里,编码可导致浏览者通过ie时候网页乱码,也可以导致div+css的兼容性hack,编码非常的重要,一般编码的位置放在html网页中的head>和中间。今天我们就介绍一下关于编码的知识。 一般这段网页编码放在html网页中的 和中间。 html编码样式 通过改变charset=utf…

    好文分享 2025年12月21日
    000
  • html规定元素内容的语言属性lang

    实例 段落中的一些法文: Ceci est un paragraphe. 浏览器支持 所有浏览器均支持 lang 属性。 定义和用法 lang 属性规定元素内容的语言。 提示和注释 注释:lang 属性在以下标签中无效:, , , set>, , 以上就是html规定元素内容的语言属性lang…

    好文分享 2025年12月21日
    000
  • c语言是一种什么编译形式的语言

    什么是编译模式? 编译模式是指如何在内存中放置程序代码及数据,如何分配堆栈,并确认占用的内存大小及如何存取它们,当指定内存模式(编译模式)以后,语言编译程序将按事先选择好的内存模式编译组织程序。 C语言中提供了6种编译模式,这6种模式是:微模式(Tiny),小模式(Small),中模式(Medium…

    2025年12月17日
    000
  • 使用C语言怎样清空输入缓冲区?这里有多种方法值得借鉴

    C语言中有几个基本输入函数: //获取字符系列 int fgetc(FILE *stream); int getc(FILE *stream); int getchar(void); //获取行系列 char *fgets(char * restrict s, int n, FILE * restr…

    好文分享 2025年12月17日
    000
  • 如何用python写2048

    答案:2048游戏核心是4×4网格合并数字,通过初始化、移动合并、随机生成数字和判断胜负实现。使用NumPy处理数组,命令行交互控制方向,每次移动后添加新数字,无法移动时结束游戏。 2048 是一个经典的滑动数字合并游戏,用 Python 实现它并不复杂。我们可以使用 NumPy 处理二维数组逻辑,…

    2025年12月14日
    000
  • HiDream-I1— 智象未来开源的文生图模型

    hidream-i1:一款强大的开源图像生成模型 HiDream-I1是由HiDream.ai团队开发的17亿参数开源图像生成模型,采用MIT许可证,在图像质量和对提示词的理解方面表现卓越。它支持多种风格,包括写实、卡通和艺术风格,广泛应用于艺术创作、商业设计、科研教育以及娱乐媒体等领域。 HiDr…

    2025年12月5日
    000
  • 0.198 超低风阻 AI 智能纯电轿车极越 07 首秀北京车展

    展览会随着新车发布、新技术展露,每一次的大型车展都是购车用户和汽车爱好者的最佳去处。本届北京车展将于4月25日开幕,极越作为高端智能汽车品牌,将携带 ” 最美 7 系 ” 极越 07 和 ai 智能纯电 suv 极越 01 双双亮相。 本届北京车展,极越以” 极越…

    2025年12月5日 硬件教程
    200
  • 用 Vision Pro 实时训练机器狗!MIT 博士生开源项目火了

    vision pro 又现火爆新玩法,这回还和具身智能联动了 ~ 就像这样,MIT 小哥利用 Vision Pro 的手部追踪功能,成功实现了对机器狗的实时控制。 不仅开门这样的动作能精准 get: 也几乎没什么延时。 Demo 一出,不仅网友们大赞鹅妹子嘤,各路具身智能研究人员也嗨了。 比如这位准…

    2025年12月4日 硬件教程
    000
  • 张亚勤:未来会有全新的物种,它将是人类的延伸

    清华大学智能产业研究院院长张亚勤院士近期接受媒体采访,对人工智能、自动驾驶和机器人技术等领域的未来发展趋势进行了展望。 张亚勤院士认为,人工智能将沿着“信息智能>物理智能>生物智能”的路径逐步发展,最终实现通用人工智能(AGI)。他预测,信息智能的AGI将在5年内实现;物理智能AGI,例…

    2025年12月4日
    100
  • 透明物体也能被机器人抓起来了,单目的那种

    机器人精准抓取透明物体难题攻克!仅需单张图像,单目视觉即可实现! 这项突破性成果由地瓜机器人和中科院自动化所等单位合作完成,其核心是名为MODEST的新型算法框架。该框架是一个多任务模型,能够同时进行透明物体的深度估计和语义分割。 MODEST作为通用抓取模型的前端模块,无需额外传感器,即可高效、灵…

    2025年12月3日 硬件教程
    000
  • 2024 年全球扫地机器人出货量排名:石头小米进前五

    2024年全球智能扫地机器人市场蓬勃发展,idc最新报告显示强劲增长态势。报告指出,2024年全球智能扫地机器人出货量达2060.3万台,同比增长11.2%,销售额更是增长19.7%,达到93.1亿美元。这一增长主要归功于消费者对智能家居的日益追捧以及扫地机器人技术的持续革新。 中国厂商在全球市场表…

    2025年12月3日 硬件教程
    000
  • 科沃斯 AWE 展台亮点释出 与品牌代言人胡歌一起体验家庭清洁智慧解决方案

    awe2024将于3月14日至3月17日在上海新国际博览中心举行,以”智能科技,创享生活”为主题。科沃斯集团将展示其旗下科沃斯机器人和添可智能科技产品于e1馆。科沃斯机器人将展示多款地宝新品,全新智能清洁技术和全场景服务机器人产品,为参会者带来全新的服务机器人生活体验。 科沃…

    2025年12月3日
    000
  • RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

    清华和上交的最新论文中,上演了一场“学术打假”的戏码。文中研究者们对当前“纯 rl 有利于提升模型推理能力”的主流观点提出了相反的意见。 通过一系列实验,他们证明引入强化学习的模型在某些任务中的表现,竟然不如未使用强化学习的模型。 论文批判性地探讨了 RLVR 在提升 LLM 推理能力方面的作用,尤…

    2025年12月3日 科技
    100

发表回复

登录后才能评论
关注微信