有事您说话!谷歌机器人「吃了」语言大模型后,会自学和思考了

「上得厅堂,下得厨房」,这句对理想型贤内助的赞许,以后很可能要对谷歌机器人说了。

 自带大型语言模型,会自学的机器人,见过吗?不会做?可以学! 现在不会没关系,过一会儿学完了就会了。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

有事您说话!谷歌机器人「吃了」语言大模型后,会自学和思考了 

比起波士顿动力炫酷无比的上刀山,下火海,翻山越岭,如履平地的「铁面金刚」,这次谷歌搞的「会学习的机器人」更像是身边贴心的小助手。 我说什么,你做什么,是一般的机器人执行指令的套路。谷歌这次的新研究,让机器人不只会按指令,自己也能动手做。 

这是谷歌首次将语言大模型和机器人相结合,教机器人做人类一样的事情。 

有事您说话!谷歌机器人「吃了」语言大模型后,会自学和思考了

论文地址:https://arxiv.org/pdf/2204.01691.pdf用谷歌论文的题目说就是:「Do as I can,not as I say」。

大概是这个意思:「你已经是个成熟的机器人了,我做的,你也能做,不会的可以学,不熟的可以练!」 谷歌为这个机器人取名PaLM-SayCan。 在《华盛顿邮报》的报道中,记者就见到了研究人员让机器人用塑料玩具原料作汉堡。 看起来这个机械臂知道在放肉之后、放生菜之前,要加点番茄酱,但目前这位厨子认为,「加番茄酱」是把整个装番茄酱的瓶子放在汉堡里。 

虽然目前这个机器人大厨还不合格,不过谷歌相信,在大语言模型的训练下,学会做汉堡只是早晚的事。 这个机器人还能识别七喜和可口可乐的罐子,打开抽屉并找到一袋薯片。凭借PaLM的抽象能力,它甚至可以理解黄色、绿色和蓝色的碗可以分别比喻为沙漠、丛林和海洋。 

有事您说话!谷歌机器人「吃了」语言大模型后,会自学和思考了 

和以前的机器人不同,过去也有机器人做汉堡、做炒面、做披萨,但实际上完成的是单一动作的明确指令的组合,比如「右臂左移三格」、「翻个面」等。 现在谷歌的目的是,让机器人能听懂并执行「来给我做个汉堡」、「我饿了,去给我买个面包」、「出去陪我打个球」这种命令。 就跟和人说话一样。

比如,当谷歌人工智能研究员对PaLM-SayCan机器人说:「我的饮料洒了,你能帮忙吗?」 它在谷歌办公大楼的厨房里用轮子滑行,用数码相机的视觉发现柜台上的海绵,用电动臂抓住它,并把它带回来。

有事您说话!谷歌机器人「吃了」语言大模型后,会自学和思考了

谷歌的布莱恩·伊克特(Brian Ichter)说:「这从根本上说是一种不同的模式」。他是最近发布的一篇描述这类机器人新进展的论文的作者之一。

 目前,机器人已经不算稀罕物了。数以百万计的机器人在世界各地的工厂里工作,但它们遵循特定的指令,通常只专注于一两项任务。 而要打造一个能够完成一系列任务,还能边干边学的机器人,则要复杂得多。多年来,大大小小的科技公司都在努力建造这种「通用型机器人」。 

近几年大火的大语言模型让谷歌找到了「通用型机器人」的研发灵感。 大型语言模型利用互联网上的大量文本,训练AI软件,以猜测某些问题或评论之后可能出现的反应类型。

 有事您说话!谷歌机器人「吃了」语言大模型后,会自学和思考了 

从BERT到GPT-3,再到后来的MT-NLP,随着参数数量的突飞猛进,这些模型已经非常善于预测正确的反应,以至于与一个模型打交道往往感觉像是在与一个知识渊博的人对话。 掌握这么多知识,光陪人聊个天岂不是可惜?能对话,就能干活,从聊天机器人,到助手机器人,谷歌的研究思路可以说算是「水到渠成」了。 

这个PaLM-SayCan,厉害在哪?

这次,Google AI与谷歌母公司Alphabet的登月计划X团队推出的Everyday Robot项目合作,提出了一种方法。 即通过预训练在大型语言模型(LLM)中提取知识,让机器人遵循高级文本指令完成物理任务。

 有事您说话!谷歌机器人「吃了」语言大模型后,会自学和思考了

 Everyday Robot项目已经进行了多年,许多与谷歌AI合作的团队成员在2015年或2016年加入了Alphabet。 他们的想法是,让机器人利用摄像头和复杂的机器学习算法来查看周围世界并向之学习,而无需教授它们可能遇到的每一种潜在情况。

 有事您说话!谷歌机器人「吃了」语言大模型后,会自学和思考了 

谷歌的思路是: 大型语言模型可以编码丰富的关于世界的语义知识,这些知识对于旨在执行以自然语言任务机器人非常有用。 而LLM的明显缺点是「缺乏真实世界的经验」,在实验室里表现完美,到了现实生活中可能就一无是处。 

​因此研究人员建议「通过预训练技能提供现实世界的基础」,用于约束模型完成符合环境的自然语言动作。

机器人可以充当语言模型的“手和眼睛”,而语言模型则提供有关任务的高级语义知识/现实经验。 

豆包大模型 豆包大模型

字节跳动自主研发的一系列大型语言模型

豆包大模型 834 查看详情 豆包大模型

谷歌使用了一台巨大的6144个处理器的机器来训练PaLM(Pathways Language Model)。训练资源包括微软GitHub网站上发现的大量多语言网络文件、书籍、维基百科文章、对话和编程代码。 这样训练出的AI智能体,可以解释笑话、完成句子、回答问题并按照自己的思维链进行推理。  

接下来问题来了,如果把这个智能体用于机器人,如何提取和利用大型语言模型(LLM)的知识来完成物理任务呢? 比如,我的饮料洒了,GPT-3会说你可以用吸尘器,LaMDA会说你需要我帮你找清洁器吗?(就很迷) 

有事您说话!谷歌机器人「吃了」语言大模型后,会自学和思考了

 大型语言模型由于并未与现实环境交互,因此无法对这项操作反应。 而基于LLM的SayCan通过预训练模型形成的价值判断能力,可以处理复杂、真实环境下的指令。 

有事您说话!谷歌机器人「吃了」语言大模型后,会自学和思考了 

受这个例子的启发,我们研究了如何在LLM中提取知识以使机器人能够遵循高级文本指令的问题。 该机器人配备了一系列学习技能,用于能够进行低级视觉运动控制的“原子”行为。 除了要求LLM简单地解释指令外,我们还可以使用它来评估个人技能在完成高级指令方面取得进展的可能性。 

假设每个技能都有一个可供量函数,那么就可以量化它从当前状态成功的可能性(例如学习价值函数),这个值则可以衡量技能的可能性。 这样LLM就完成了每个技能对完成指令贡献概率的描述。 

有事您说话!谷歌机器人「吃了」语言大模型后,会自学和思考了 

研究人员使用两个指标来评估系统的性能:

(1)计划成功率,表明机器人是否为指令选择了正确的技能;

(2)执行成功率,表明它是否成功执行了指令。 

数据显示,PaLM-SayCan的指令执行率在所有模型中也是最高的。 

风险:机器人学坏了咋办?

想法很顶,不过这项工作也不是毫无风险。 大型语言模型的训练语料库来自互联网,一些语言模型已经表现出种族主义或性别歧视等不良倾向,有时会被诱导发表仇恨言论或说谎。 这种模型如果用于训练聊天机器人,结果也就是出了个会骂街、会嚼舌根的语音助手,但如果是训练机器人,它有手有脚的,去干坏事怎么办?  

而且,比这更危险的是,万一这样训练出的机器人有了意识,事情可能就会失控了(类似的科幻电影可不少了)。 

今年7月,谷歌一名员工声称软件是有生命的员工。人工智能专家的共识是,这些模型不是有生命的,但许多人担心它们会表现出偏见,因为它们是在大量未经过滤的、由人类产生的文本上训练的。 

尽管如此,谷歌仍在不断努力,现在,研究人员已经不需要为机器人的每项任务编码具体的技术指令,而是可以更简单地用日常语言与它们交谈。 更重要的是,新软件可以帮助机器人自行解析复杂的多步骤指令。

现在,机器人可以解释它们以前从未听过的指令,并自己想出有意义的反应和行动。 

也许对于机器人来说,新的大门才刚刚打开,未来可能仍然是一个漫长的过程。多年来,神经网络和强化学习等人工智能技术已被用于训练机器人。目前有了一些突破,但进展仍然缓慢。 

谷歌的机器人还远未准备好用于现实世界,研究人员一再表示,目前这个机器人还处于实验室阶段,还没有推向商业化的计划。

以上就是有事您说话!谷歌机器人「吃了」语言大模型后,会自学和思考了的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/552766.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月9日 20:47:55
下一篇 2025年11月9日 20:48:48

相关推荐

  • 谷歌地图评论数据抓取:Playwright 问题解析与Selenium方案优化

    本文深入探讨了使用Playwright抓取谷歌地图评论数据时遇到的常见问题,特别是评论数量和平均星级无法完整获取的挑战。通过分析现有代码的潜在缺陷,文章提出并详细阐述了如何利用Selenium WebDriver作为更健壮的替代方案,并提供了关键的实现策略,包括元素定位、等待机制、动态内容处理及XP…

    2025年12月14日
    000
  • Python如何实现数据加密?hashlib模块应用

    hashlib模块不可逆,适用于数据完整性校验、密码存储或数字签名,但不适用于需要解密的加密场景。1. hashlib提供单向哈希功能,用于生成固定长度的哈希值,无法还原原始数据;2. 常见应用场景包括密码存储(存储哈希而非明文)、文件完整性校验;3. 对于需要解密的数据加密,应使用secrets模…

    2025年12月14日 好文分享
    000
  • 如何优化jieba分词以改善景区评论的关键词提取效果?

    提升Jieba分词精度,优化景区评论关键词提取 使用Jieba分词处理景区评论数据时,分词效果直接影响后续LDA主题模型的构建和关键词提取。本文探讨如何优化Jieba分词,提升关键词提取的准确性。 问题描述: 您希望利用Jieba分词生成景区评论词云,并通过LDA模型提取主题关键词。但发现现有分词结…

    2025年12月13日
    000
  • 如何设计多语言应用的后台系统以满足不同市场需求?

    高效构建多语言应用后台:兼顾简洁与灵活性 开发面向全球市场的视频应用,例如需要覆盖欧美、越南和中国市场的应用,其后台系统设计必须有效处理多语言和地区差异化内容。 本文探讨如何构建一个简洁高效的多语言应用后台,满足不同市场对视频封面、轮播图、广告投放等方面的个性化需求。 例如,同一视频(视频A)在不同…

    2025年12月13日
    000
  • AI模型的兴起,能够在各个行业创建内容,设计和解决方案

    引言 人工智能(AI)已不再是遥不可及的未来科技,它正深刻地改变着当今各行各业。先进的AI模型的出现,彻底革新了企业的内容创作、产品设计以及创新解决方案的开发模式。从AI写作助手到自动化图形设计工具,再到智能化业务解决方案,AI正以前所未有的方式改变着我们的工作方式和人机交互模式。 AI如何重塑内容…

    2025年12月13日
    000
  • 执行胜于借口:开发人员如何升级

    摆脱拖延症,立即行动!你是否总是计划着,却迟迟无法开始?别再等待“完美时机”了,因为完美时机根本不存在!世界奖励的是行动,而不是想法。准备好提升自我了吗?让我们一起开始吧! 1. 立即行动,别再犹豫 想让食物保鲜更久?想解决一直困扰你的难题?别再无限期地搜索谷歌了,赶快尝试各种解决方案吧!有时候,最…

    2025年12月13日
    000
  • 代码的出现 &#- 天爪装置

    第 13 天:爪子装置(数学,数学,还有更多数学)。 解决方案链接 今天的挑战是用 python 完成的,但有所改变。做出此选择是为了:a) 测试我的 python / 了解更多 pythonb) 今天看起来像是一个非常沉重的数学难题,所以觉得 python 会是完美的,我没有错 – 它…

    2025年12月13日
    000
  • 如何使用 Python 抓取 Google 搜索结果

    抓取 google 搜索可提供基本的 serp 分析、seo 优化和数据收集功能。现代抓取工具使这个过程更快、更可靠。 我们的一位社区成员撰写了此博客,作为对 crawlee 博客的贡献。如果您想向 crawlee 博客贡献此类博客,请通过我们的 discord 频道与我们联系。 在本指南中,我们将…

    2025年12月13日 好文分享
    000
  • python爬虫之谷歌怎么抓包

    使用Python爬虫抓取谷歌数据可以使用谷歌搜索API或第三方工具。具体步骤包括:使用谷歌搜索API:注册谷歌云平台账号并启用搜索API。安装google-api-python-client库。创建API客户端并执行搜索。解析搜索结果。使用第三方工具:selenium:用于模拟真实浏览器的行为。Be…

    2025年12月13日
    000
  • 如何构建您自己的 Google NotebookLM

    随着音频内容消费的日益普及,将文档或书面内容转换为真实音频格式的能力最近已成为趋势。 虽然 google 的 notebooklm 在这个领域引起了人们的关注,但我想探索使用现代云服务构建一个类似的系统。在本文中,我将向您介绍如何创建一个可扩展的云原生系统,该系统使用 fastapi、firebas…

    2025年12月13日
    000
  • 在人工智能工具的帮助下构建状态机库

    出于无聊,在等待后续面试时,我构建了一个由 genruler 提供支持的状态机库。准确地说,是我毕业后第一份工作期间建造的。这个实现大致是基于我的主管当时起草的设计。该项目还旨在展示如何利用规则 dsl。 根据谷歌搜索有限状态机返回的有用摘要(强调我的) “有限状态机”是指一种计算模型,其中系统在任…

    2025年12月13日
    000
  • 使用 Gemini Flash 构建视频洞察生成器

    视频理解或视频洞察由于其多方面的优势而在各个行业和应用中至关重要。它们通过自动生成元数据、对内容进行分类并使视频更易于搜索来增强内容分析和管理。此外,视频洞察提供了推动决策、增强用户体验并提高不同行业运营效率的关键数据。 google 的 gemini 1.5 模型为该领域带来了重大进步。除了在语言…

    2025年12月13日
    000
  • How Qubits are physically implemented?

    量子计算正在彻底改变我们处理信息的方式,利用量子力学原理以前所未有的速度执行计算。 这项技术的核心是量子位,即经典位的量子类似物。与可以是 0 或 1 的传统位不同,由于叠加和纠缠,量子位可以同时存在于多种状态。这种令人着迷的功能是通过各种物理实现实现的,每种物理实现都有其独特的特性和应用。 下面,…

    2025年12月13日 好文分享
    000
  • 转行 Python 还是 Go:哪个更适合你?

    转行 Python vs Go:未来发展前景大比拼 随着技术领域的不断发展,掌握前沿编程语言已成为职业生涯的必备条件。对于希望转行的程序员来说,备受关注的 Python 和 Go 语言成为选择焦点。 Python 优势: 流行度高:Python 长期位居编程语言排行榜前列,拥有广泛的用户基础。 丰富…

    2025年12月13日
    000
  • 安卓开发怎么配合python爬虫

    将安卓开发与 Python 爬虫配合使用允许构建安卓应用程序来自动化数据收集、离线访问数据、进行数据分析以及使用爬虫收集的数据自动化任务。这些步骤包括在安卓设备上安装 Python、编写 Python 爬虫、将爬虫集成到安卓应用程序中,以及在应用程序中处理和显示数据。 安卓开发配合 Python 爬…

    2025年12月13日
    000
  • python怎么写get爬虫

    GET爬虫通过向网站发送HTTP GET请求抓取数据:导入requests库。构造请求,包括目标URL。使用requests库发送GET请求。处理服务器响应,并获取响应数据。验证响应状态码,并处理任何错误。 Python编写GET爬虫 简介 GET爬虫是用于从网站中抓取数据的爬虫类型,其工作原理是向…

    2025年12月13日
    000
  • 如何有效监控同行App的推送通知?

    App推送通知的监控策略 为了应对市场竞争,不少App开发人员希望通过监控同行App的推送通知内容来获取灵感和竞争优势。那么,有哪些方法可以有效监控App的推送通知呢? 抓包的局限性 传统的抓包方法无法捕获推送通知,因为推送通知通常使用设备特有的二进制协议,比如APNs(苹果推送通知服务)或FCM(…

    2025年12月13日
    000
  • 谷歌可编程搜索框预填充:利用JavaScript实现动态内容设置

    本教程详细介绍了如何使用javascript为谷歌可编程搜索(programmable google search)的搜索框进行预填充。通过监听window.onload事件,并定位到动态生成的gsc-input输入框,我们可以编程设置其默认值,并解决潜在的样式冲突,从而提升用户体验,提供个性化的初…

    2025年12月12日
    000
  • PHP如何加载图片_PHP加载不同格式图片的方法

    答案:PHP通过设置Content-Type头并输出文件内容来加载图片。具体流程为:验证文件存在且可读,利用getimagesize()获取MIME类型,正确设置Content-Type头,使用readfile()输出图片内容,并推荐添加缓存头以提升性能;处理不同格式时依赖MIME类型自动适配;安全…

    2025年12月12日
    000
  • 什么是Theta Fuel (TFUEL)币?TFUEL代币经济学、未来展望及购买指南

    theta fuel (tfuel) 是 theta 平台上的支付加密货币,theta 是一个基于区块链的视频分享平台。19 日,theta fuel (tfuel) 在 upbit贪婪与恐惧指数中位列第一(贪婪指数) ,得分为 72 分,引起了市场参与者的广泛关注。 Binance币安 欧易OKX…

    2025年12月12日 好文分享
    100

发表回复

登录后才能评论
关注微信