Google AI年终总结第六弹:没有波士顿动力的谷歌机器人,发展得怎么样了?

波士顿动力的一个后空翻,让我们看到了人造机器人所带来的无限可能。​

尽管谷歌已于2017年把波士顿动力出手了,但谷歌仍然继续他们的机器人开发之路,不只是在「身体」上逼近人类,在「智力」也追求更好的理解人类指令。

由Jeff Dean领衔的Google Research年终总结系列「Google Research, 2022 & beyond」已经更新到第六期,本期的主题是「机器人」,作者为高级产品经理 Kendra Byrne和谷歌机器人研究科学家Jie Tan

​在我们的有生之年,一定能看到机器人技术参与到人类的日常生活中,帮助提高人类的生产力和生活质量。

在机器人技术广泛应用于以人为中心的空间(即为人而设计的空间,而不是机器)中的日常实际工作之前,需要确保它们能够安全地为人们提供帮助。

在2022年,谷歌关注的挑战是使机器人更有助于人类:

让机器人和人类更有效和自然地交流;使机器人能够理解和应用现实世界中的常识知识;扩大机器人在非结构化环境中有效执行任务所需的低层次技能的数量。

当LLM遇上机器人

大型语言模型(LLM)的一个特性是能够将描述和上下文编码成「人和机器都能理解」的格式。

当把LLM应用到机器人技术中时,可以让用户仅通过自然语言指令就能给机器人分配任务;当与视觉模型和机器人学习方法相结合时,LLM 为机器人提供了一种理解用户请求的上下文的方法,并能够对完成请求所采取的行动进行规划。

其中一个基本方法是使用 LLM 来提示其他预先训练的模型获取信息,以构建场景中正在发生的事情的上下文,并对多模态任务进行预测。整个过程类似于苏格拉底式的教学方法,教师问学生问题,引导他们通过一个理性的思维过程来解答。

在「苏格拉底模型」中,研究人员证明了这种方法可以在zero-shot图像描述和视频文本检索任务中实现最先进的性能,并且还能支持新的功能,比如回答关于视频的free-form问题和预测未来的活动,多模态辅助对话,以及机器人感知和规划。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

论文链接:https://arxiv.org/abs/2204.00598

在「迈向有益的机器人: 机器人可用性的基础语言」一文中,研究人员与Everyday Robots合作,在机器人可用性模型中基于PaLM语言模型规划长期任务。

图片

博客链接:https://ai.googleblog.com/2022/08/towards-helpful-robots-grounding.html

在之前的机器学习方法中,机器人只能接受诸如「捡起海绵」等简短的硬编码命令,并且难以推理完成任务所需的步骤,如果任务是一个抽象的目标,比如「你能帮忙清理这些洒出来的东西吗?」,就更难处理了。

图片

研究人员选择使用 LLM 来预测完成长期任务的步骤顺序,以及一个表示机器人在给定情况下实际能够完成的技能的affordance 模型。

强化学习模型中的价值函数可以用来建立affordance 模型,即一个机器人在不同状态下可以执行的动作的抽象表示,从而将现实世界中的长期任务,如「整理卧室」与完成任务所需的短期技能,如正确挑选、放置和安排物品等联系起来。

图片

论文链接:https://arxiv.org/abs/2111.03189

同时拥有 LLM 和affordance 模型并不意味着机器人能够成功地完成任务,通过内心独白( Inner Monologue),可以结束基于 LLM 的任务规划中的循环;利用其他信息来源,如人工反馈或场景理解,可以检测机器人何时无法正确完成任务。

图片

论文链接:https://arxiv.org/abs/2207.05608

利用Everyday Robots中的一个机器人,研究人员发现 LLM 可以有效地重新规划当前或以前的失败计划步,机器人可以从失败中恢复并完成复杂的任务,比如「把一个可乐放在最上面的抽屉里」。

图片

在基于 LLM 的任务规划中,其中一个突出能力就是机器人可以对高级目标中间任务的变化做出反应:例如,用户可以告诉机器人在发生的事,通过提供快速纠正或重定向机器人到另一个任务,从而可以改变已经规划好的行动,对于让用户交互式地控制和定制机器人任务特别有用。

虽然自然语言使人们更容易指定和修改机器人的任务,但还有一个挑战是对人类描述做出实时反应。

研究人员提出了一个大规模的模仿学习框架,用于生产实时的、开放词汇的、以语言为条件的机器人,能够处理超过87,000个独特的指令,估计平均成功率为93.5% ;作为该项目的一部分,谷歌还发布了当下规模最大的语言标注机器人数据集 Language-Table

图片

论文链接:https://arxiv.org/pdf/2210.06407.pdf

并且,用LLM 编写代码来控制机器人动作也是一个有前景的研究方向。

图片

研究人员开发的代码编写方法展示了增加任务复杂性的潜力,机器人可以通过自主生成新代码来重新组合 API 调用,合成新函数,并表达反馈循环来在运行时合成为新行为。

图片

论文链接:https://arxiv.org/abs/2209.07753

将机器人学习转化为一个可扩展的数据问题

大型语言和多模态模型可以帮助机器人理解他们操作的环境,比如场景中发生了什么以及机器人应该做什么;但是机器人也需要低层次的物理技能来完成物理世界中的任务,比如拾起和精确放置物体。

虽然人类经常认为这些身体技能是理所当然的,无需思考的情况下就能完成各种动作,但对机器人来说却是个难题。

比如,机器人在拾取物体时,需要感知和理解环境,推导出手爪与物体之间的空间关系和接触动力学,精确地驱动高自由度手臂,并施加适当的力量以稳定地抓取物体而不破坏物体。

学习到这些低层次技能的难题被称为莫拉维克悖论:推理只需要很少的计算,但感觉运动和知觉技能需要大量的计算资源。

受到 LLM 的成功启发,研究人员采用一种数据驱动的方法,将学习低层次物理技能的问题转变为一个可扩展的数据问题:LLM 表明,大型Transformer模型的通用性和性能随着数据量的增加而增加。

图片

论文链接:https://robotics-transformer.github.io/assets/rt1.pdf

研究人员提出机器人Transformer -1 (RT-1) 模型,训练了一个机器人操作策略,用到的训练数据为13万个episodes的大规模现实世界的机器人数据集,使用了来自Everyday Robots的13个机器人,覆盖了700多个任务,并显示了机器人技术的相同趋势,即增加数据的规模和多样性可以提高模型对新任务、环境和对象的泛化。

图片

在语言模型和机器人学习方法(如 RT-1)的背后,都是 Transformer模型基于互联网规模的数据训练得到的;但与 LLM 不同的是,机器人学面临着不断变化的环境和有限计算的多模态表示的挑战。

BibiGPT-哔哔终结者 BibiGPT-哔哔终结者

B站视频总结器-一键总结 音视频内容

BibiGPT-哔哔终结者 28 查看详情 BibiGPT-哔哔终结者

2020年,谷歌提出了一种能够提高Transformer计算效率的方法Performers,影响到包括机器人技术在内的多个应用场景。

最近研究人员扩展该方法,引入一类新的隐式控制策略,结合了模拟学习的优势和对系统约束的鲁棒处理(模型预估计控制的约束)。

图片

论文链接:https://performermpc.github.io/

与标准的 MPC 策略相比,实验结果显示机器人在实现目标方面有40% 以上的进步,在人类周围导航时,social指标上有65% 以上的提升;Performance-MPC 为8.3 M 参数模型的延迟仅为8毫秒,使得在机器人上部署Transformer变得可行。

图片

谷歌的研究团队还证明,数据驱动方法通常适用于不同环境中的不同机器人平台,以学习范围广泛的任务,包括移动操作、导航、运动和乒乓球等,也为学习低层次机器人技能指明了一条明确的道路:可扩展的数据收集。

与互联网上丰富的视频和文本数据不同,机器人数据极其稀缺,难以获取,收集和有效使用代表真实世界交互的丰富数据集的方法是数据驱动方法的关键。

仿真是一种快速、安全和易于并行化的选择,但是在仿真中很难复制完整的环境,特别是物理环境和人机交互环境。

图片

论文链接:https://arxiv.org/abs/2207.06572

在 i-Sim2Real 中,研究人员展示了一种方法,通过从简单的人类行为模型中自举,并在模拟训练和在现实世界中部署之间交替进行,来解决仿真与现实之间的不匹配问题,并学习与人类对手打乒乓球,在每次迭代中,人类行为模型和策略都会得到细化。

图片

虽然模拟可以辅助收集数据,但是在现实世界中收集数据对于微调模拟策略或在新环境中适应现有策略至关重要。

在学习过程中,机器人很容易失败,并可能会对它自身和周围环境造成损害,特别是在探索如何与世界互动的早期学习阶段,需要安全地收集训练数据,使得机器人不仅学习技能,还可以从故障中自主恢复。

图片

论文链接:https://arxiv.org/abs/2110.05457

研究人员提出了一个安全的 RL 框架,在「学习者策略」和「安全恢复策略」之间进行切换,前者优化为执行所需任务,后者防止机器人处于不安全状态;训练了一个复位策略,这样机器人就能从失败中恢复过来,比如在跌倒后学会自己站起来。

图片

虽然机器人的数据很少,但是人类执行不同任务的视频却很多,当然机器人和人的构造有不同之处,因此让机器人向人类学习的想法引发了「 跨不同实体迁移学习」的问题。

图片

论文链接:https://arxiv.org/pdf/2106.03911.pdf

研究人员开发了交叉具身反向强化学习(Cross-Embodiment Inverse Reinforcement Learning),通过观察人类来学习新的任务,并非是试图像人类那样精确地复制任务,而是学习高层次的任务目标,并以奖励函数的形式总结这些知识,示范学习可以让机器人通过观看互联网上随时可用的视频来学习技能。

另一个方向是提高学习算法的数据效率,这样就不再仅仅依赖于扩展数据收集:通过合并先验信息,包括预测信息、对抗性动作先验和指导策略,提高了 RL 方法的效率。

图片

论文链接:https://arxiv.org/abs/2210.10865

利用一种新的结构化动力系统体系结构,将 RL 与轨迹优化相结合,在新型求解器的支持下,得到了进一步的改进,先验信息有助于缓解勘探的挑战,更好地规范数据,并大大减少了所需的数据量。

此外,机器人团队还投入了大量的资金在更有效的数据模拟学习上,实验证明了一种简单的模仿学习方法 BC-Z 可以对训练中没有看到的新任务进行zero-shot泛化。

图片

论文链接:https://arxiv.org/pdf/2210.02343.pdf

并且还引入了一个迭代模仿学习算法 GoalsEye,从游戏中学习和目标条件行为克隆相结合,用于高速高精度的乒乓球游戏。

图片

论文链接:https://sites.google.com/view/goals-eye

在理论方面,研究人员研究了表征模拟学习样本复杂性的动态系统稳定性,以及捕获演示数据中的失效和恢复以更好地调节小数据集离线学习的作用。

图片

论文链接:https://proceedings.mlr.press/v168/tu22a.html

总结

人工智能领域大型模型的进步促进了机器人学习能力的飞跃。

在过去的一年里,可以看到 LLM 中捕捉到的上下文感觉和事件顺序帮助解决机器人技术的长期规划,并使机器人更容易与人互动和完成任务。还可以看到用可扩展的路径来学习鲁棒性和泛化机器人行为,通过应用Transformer模型架构的机器人学习。

谷歌承诺将继续开放源代码数据集,在新的一年继续发展有用的机器人。

以上就是Google AI年终总结第六弹:没有波士顿动力的谷歌机器人,发展得怎么样了?的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/559873.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
我的世界匠魂生铁制作方法-我的世界匠魂如何制作生铁
上一篇 2025年11月10日 00:32:59
javascript怎么实现窗口置顶
下一篇 2025年11月10日 00:33:01

相关推荐

  • 谷歌浏览器如何截图 谷歌浏览器页面截图技巧

    谷歌浏览器如何截图 谷歌浏览器页面截图技巧谷歌浏览器如何截图 谷歌浏览器页面截图技巧谷歌浏览器如何截图 谷歌浏览器页面截图技巧谷歌浏览器如何截图 谷歌浏览器页面截图技巧

    使用谷歌浏览器的开发者工具截图步骤:1. 按ctrl+shift+i(windows/linux)或cmd+option+i(mac)打开开发者工具。2. 点击右上角三个点,选择”更多工具”,再选择”截图”。3. 选择截取整个页面。推荐的谷歌浏览器扩展…

    2026年5月10日 用户投稿
    100
  • Binance官方网站 币安Binance最新App下载 v3.8.0官方下载通道

    币安(binance)作为全球交易量领先的数字资产服务平台,其官方应用的安全性和功能的及时更新至关重要。本篇指南将为您详细解析如何通过币安官方网站,安全地获取并安装其最新版本的官方app,确保您使用的是官方正版通道,从而保障您的资产安全。 官网访问与账户准备 币安(Binance)官网入口: 币安(…

    2026年5月10日
    100
  • 火币app下载 火币app官方下载最新版 火币htx交易所安卓版

    若您需要下载火币htx官方最新版的安卓应用,最安全可靠的方式是通过其官方网站进行获取。为了保障您的数字资产安全,请务必避免使用任何非官方渠道提供的下载链接或安装包,因为这些来源可能包含恶意软件,对您的账户和资金构成威胁。访问官网后,通常可以在页面显眼位置找到app下载入口或二维码。 火币官网直达: …

    2026年5月10日
    000
  • binance交易平台官网入口 币安官方最新版v3.3.0APP下载安装

    binance交易平台官网入口 币安官方最新版v3.3.0APP下载安装binance交易平台官网入口 币安官方最新版v3.3.0APP下载安装binance交易平台官网入口 币安官方最新版v3.3.0APP下载安装binance交易平台官网入口 币安官方最新版v3.3.0APP下载安装

    欢迎来到币安(binance)的世界!作为全球领先的数字资产交易平台,保障账户安全的第一步就是从官方渠道获取应用程序。本指南将引导您如何安全下载并安装最新版的币安app,并完成后续的注册与安全设置。 币安官网直达: 币安官方app: 一、币安官方App下载与安装 为了确保您的资金安全,请务必通过官方…

    2026年5月10日 用户投稿
    000
  • 欧易OKX交易平台官网注册入口 2026欧易官方手机App下载地址

    作为全球顶级的数字资产服务平台,欧易(okx)为用户提供了安全、稳定的交易环境。寻找一个长期有效且官方认证的注册入口至关重要。本指南旨在为您提供一个面向未来的欧易okx官方渠道指引,确保您在当下乃至未来几年,都能通过最安全的方式访问官网并下载官方正版手机应用。 欧易OKX官网注册:开启您的数字资产之…

    2026年5月10日
    000
  • 火币app手机版入口 火币交易所官方手机版入口

    火币app是一款广受欢迎的数字资产交易平台,为用户提供安全、便捷的加密货币交易服务。它支持多种主流数字货币的交易,并提供实时行情、专业k线图、法币交易、合约交易等多种功能,满足不同用户的交易需求。本文将为您提供官方app的下载链接及详细的安装教程,点击本文提供的下载链接即可安全下载。 火币App下载…

    2026年5月10日
    000
  • o易交易所APP官方下载2025 okex安卓正版安装包v6.137.1

    o易交易所APP是一款功能全面的数字资产交易平台,致力于为全球用户提供安全、便捷、专业的加密货币交易服务。该应用支持多种主流数字货币的交易,包括比特币(BTC)、以太坊(ETH)等,并提供币币交易、合约交易、理财等多元化服务。 欧易官网入口: 欧易okex安卓正版安装包v6.137.1: o易交易所…

    2026年5月10日
    000
  • CEX充提币:中心化交易所使用技巧

    在加密货币交易的浩瀚宇宙中,选择一家可靠、高效且安全便捷的中心化交易所(cex)是每位投资者迈向成功的关键一步。尤其对于初入加密世界的新手而言,cex不仅是进入市场的大门,更是其资产的守护者。而对于经验丰富的交易者来说,深入掌握cex的充提币技巧,则意味着能够更灵活地调配资金,抓住稍纵即逝的市场机遇…

    用户投稿 2026年5月10日
    100
  • typescript用来干嘛_typescript的作用

    TypeScript 是一种用于构建大型复杂应用程序的开源编程语言,它扩展了 JavaScript 的功能,具有以下作用:类型系统:编译时检查类型错误,提高代码可靠性。面向对象编程特性:支持类、接口、抽象类,增强代码组织性和维护性。模块系统:分解程序为可重用模块,提升可维护性和可扩展性。全面的类型推…

    2026年5月10日
    000
  • 欧易交易所 OKX全球主流交易平台(官方网站)

    欧易(OKX)是一款全球领先的数字资产服务平台,为用户提供币币、杠杆、期权/交割/永续合约、DEX交易、余币宝、DeFi挖 矿、借贷等多元化的产品矩阵,覆盖超过200个国家和地区,拥有千万级用户量,致力于为全球用户提供一站式的数字资产服务。 欧易交易所官方网站入口 欧易全球官方网址是: 欧易OKX下…

    2026年5月10日
    000
  • HTML地理位置怎么优化_本地SEO代码优化技巧

    HTML地理位置优化需使用Schema.org标记并确保信息一致,结合关键词、地图嵌入和本地内容提升本地搜索排名。 HTML地理位置优化,简单来说,就是让你的网站在本地搜索结果中更容易被找到。核心在于告诉搜索引擎你的网站与特定地理位置相关,并提升用户体验。 解决方案 使用Schema.org标记: …

    2026年5月10日
    200
  • 欧易官方iOS版下载_苹果手机欧易APP官方入口

    欧易官方iOS版下载_苹果手机欧易APP官方入口欧易官方iOS版下载_苹果手机欧易APP官方入口欧易官方iOS版下载_苹果手机欧易APP官方入口欧易官方iOS版下载_苹果手机欧易APP官方入口

    想要进入数字资产的世界,选择一个安全可靠的平台至关重要。本文将作为您的向导,详细拆解欧易(okx)交易所从入门到上手的全部流程,包括官方渠道访问、app安全下载安装,以及新用户注册的每一步。跟随本指南,轻松开启您的交易之旅。 第一步:访问欧易OKX官方网站 欧易官方网址: 欧易官方app: 1、请通…

    2026年5月10日 用户投稿
    000
  • 币安Binance正版官网地址 币安Binance安全登录官网

    如果你想访问币安Binance正版官网并进行安全登录,那么掌握正确的网址和安全操作方法非常关键。本文将为你详细介绍如何访问官方平台,以及在登录过程中需要注意的安全细节,帮助你更安心地管理加密货币资产。 官网入口: APP下载: 官网访问方法 1、确认网址:在访问币安Binance官网时,一定要输入官…

    2026年5月10日
    100
  • 2025欧意交易所app官方下载 欧意 v6.138.1 最新版app安卓版

    欧意交易所App是一款广受欢迎的数字资产交易平台,致力于为全球用户提供安全、便捷、专业的加密货币交易服务。平台支持多种主流数字货币的交易,界面友好,功能强大,是您管理和增值数字资产的理想选择。 欧易官网入口: 欧易官网直链下载: 下载步骤 1、点击上方提供的官方下载链接,浏览器将自动开始下载欧意交易…

    2026年5月10日
    000
  • 币安binanceapp官方下载安装 币安2025安卓最新版本入口地址

    币安binanceapp官方下载安装 币安2025安卓最新版本入口地址币安binanceapp官方下载安装 币安2025安卓最新版本入口地址币安binanceapp官方下载安装 币安2025安卓最新版本入口地址币安binanceapp官方下载安装 币安2025安卓最新版本入口地址

    币安(Binance)是全球领先的数字资产交易平台之一,为用户提供安全、稳定、便捷的数字货币交易服务。它支持多种主流及新兴的数字资产,并提供丰富的交易工具和功能。 本文将为您提供币安2025安卓最新版本的官方下载入口,您只需点击文中给出的下载链接,即可获取官方正版app安装包,开启您的数字资产之旅。…

    2026年5月10日 用户投稿
    000
  • 谷歌搜索的鼠标悬停阴影效果是如何实现的?

    谷歌搜索悬停阴影效果解析 在谷歌搜索页面中,当鼠标悬停在搜索框或按钮上时,会出现一个微妙的边缘阴影。想要了解这一效果的实现原理,许多开发者可能率先想到使用 css。 css 探索 遗憾的是,在 css 代码中无法找到与阴影效果直接相关的属性或值。继续探索其他实现方法。 浏览器开发者工具助力 使用浏览…

    2025年12月24日
    000
  • 如何用 CSS 实现谷歌搜索框鼠标悬停时的边缘阴影效果?

    谷歌搜索框鼠标悬停时边缘阴影效果实现 对于谷歌搜索框在鼠标悬停时的边缘阴影效果,你可能找不到直接的 css 代码,但这种效果可以通过 box-shadow 属性实现。 box-shadow 可以创建箱子周围的阴影效果,它的语法如下: box-shadow: h-offset v-offset blu…

    2025年12月24日
    800
  • 如何实现谷歌搜索框鼠标悬停时的边缘阴影效果?

    如何实现谷歌搜索框鼠标悬停时的边缘阴影效果? 在谷歌搜索中,当鼠标悬停在搜索框和按钮上时,会产生一种精致的边缘阴影效果。实现这一效果需要使用 css 的 box-shadow 属性。 box-shadow 属性 box-shadow 属性允许在元素周围创建阴影效果。其语法为: box-shadow:…

    2025年12月24日
    600
  • 鼠标悬停时,谷歌搜索元素的阴影效果是如何实现的?

    鼠标悬停时突出显示谷歌搜索元素的阴影效果是如何实现的 该效果是通过 css 的 box-shadow 属性实现的,该属性用于在元素周围创建阴影效果。 当鼠标悬停在元素上时,应用 :hover 伪类,并添加 box-shadow 属性,为元素指定阴影效果。 下面是一个示例 css 代码,它给谷歌搜索框…

    2025年12月24日
    500
  • CSS 砌体 Catness

    css 就像技术中的其他东西一样 – 它总是在变化和发展。该领域正在进行的开发是 css 网格布局模块级别 3,也称为 css masonry 布局。 theo 制作了一段视频,介绍了它的开发方式以及苹果和谷歌就如何实施它进行的辩论。 所有这些让我很高兴尝试 css 砌体! webkit…

    用户投稿 2025年12月24日
    000

发表回复

登录后才能评论
关注微信