向数字世界AGI迈进！智能体已经从头开玩「荒野大镖客 2」了

程序猿 • 2025年11月11日 05:40:56 • 科技 • 阅读 0

通用计算机控制

信息革命产生了数字世界，数字世界为大模型的诞生提供了数据，也最容易实现通用人工智能（AGI）。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

向数字世界 AGI 迈进，北京智源人工智能研究院、新加坡南洋理工大学、北京大学携手提出通用计算机控制 General Computer Control (GCC)，即智能体需要像人一样看屏幕，通过键盘、鼠标完成计算机上的所有任务。在过去很长一段时间里，人工智能研究以游戏为场景，而 GCC 将为通用人工智能研究提供场景，也将进一步促进大模型和 AI Agents 的落地与产业化。

为此，研究团队提出通用计算机控制智能体框架 Cradle，使智能体不依赖任何内部 API 直接控制键盘、鼠标和任何软件交互，无论开源还是闭源，甚至能玩《荒野大镖客 2》这样的商业 3A 游戏大作！

论文标题：Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study

论文链接：https://arxiv.org/abs/2403.03186

项目主页：https://baai-agents.github.io/Cradle/

代码链接：https://github.com/BAAI-Agents/Cradle

随着大模型的发展，越来越多的智能体（AI Agents）研究关注计算机控制，包括浏览网页、操作智能手机、玩游戏等。然而，已有研究依赖内部 API 获取输入，并输出预先定义好的动作。要构建能完成计算机上一切任务的通用智能体，必须使用最通用和最标准的输入输出与计算机进行交互。因此，通用计算机控制使用统一的输入和输出，从而让智能体的通用性变为可能。

但通用性带来了操作上的难度：（1）使用计算机屏幕作为输入对智能体的视频理解能力提出了更高的要求，例如由于没有内部 API，需要通过视觉信息判断动作是否执行成功；（2）使用键盘和鼠标操作作为输出使得智能体需要更高的时空操作精度，比如键盘按键和鼠标点击通常额外涉及时间维度。如何解决这些难题是构建通用计算机控制智能体 (GCC Agents) 的挑战！

Cradle：操控一切软件

「计算机指任何以用户为中心的计算设备，包括 PC、智能手机和平板电脑等。尽管 Cradle 着重于键盘和鼠标操作，但可以很容易扩展到控制手柄和触摸屏等」

通用计算机控制智能体框架 Cradle 主要由 6 个模块组成：信息收集、自我反思、任务推断、技能管理、行动计划以及记忆模块。Cradle 高度的通用性来源于其对和计算机交互过程中的原始输入输出的合理封装和抽象。以从屏幕中显示的视频作为输入，提取其中的文本和视觉信息进行决策，并且输出底层操作系统中控制键盘和鼠标的信号去和计算机交互，使得其可以不依赖于任何假设与所有软件进行交互。

「Cradle 主要由信息收集、自我反思、任务推断、技能管理、行动计划以及记忆模块等 6 个模块组成，其强大的决策推理来自于 “反思过去，总结现在，规划未来”」

同时 Cradle 强大的决策推理模块让其得以自发和软件进行交互并且完成任务，这个过程可以被简单地总结为：反思过去，总结现在，规划未来。

反思过去：使用执行过往动作过程的视频作为输入，分别提取出其中关键的文本和视觉信息，通过反思来判断上一步动作是否执行成功、任务是否完成以及如何改进。

总结现在：反思完之后，总结当前情况，并且以此为依据来决定是否更换任务目标或是修改任务内容。

规划未来：最后根据当前任务和现状生成或者更新技能，并且从已学会的技能中检索与当前任务相关的技能作为备选，然后从中选取合适的技能实例化为动作去执行。

在决策推理的同时，Cradle 会周期性地总结和维护储存在情境记忆中的历史信息以及储存在长期记忆中的技能。这一过程的大脑是多模态大模型，如 GPT-4V，但是 Cradle 为其添加了总结、反思以及记忆等功能，形成了完整的面向通用计算机控制的智能体框架，有效解决了通用性所带来的难题。

Cradle：带你从头开始探索《荒野大镖客 2》

为了证明框架的通用性和强大的决策能力，研究团队选择将 Cradle 部署到最为困难以及鲜有人探索的的商业 3A 游戏大作《荒野大镖客 2》。他们认为作为操作最为困难的软件，假如 Cradle 能够在 3A 游戏上自由探索甚至完成主线剧情，那么说明该框架有巨大潜力泛化到其他游戏和软件上。

「与 Minecraft 这样的开源游戏不同，大多数商业游戏特别是 3A 游戏并不提供内部 API 接口，使得类似 Voyager 这样的依赖内部 API 获取输入并输出预定义动作的框架无法迁移到其他游戏中」

以 GPT-4V 为基础，Cradle 能直接根据游戏内的提示和教程生成对应的可执行代码作为技能，一步步丰富自己的技能库，并在之后的游戏中重复使用这些技能。

在执行了错误动作之后，Cradle 能够有效地通过反思来发现并且纠正错误。

Cradle 不仅能从头开始跟随游戏指引生成相应技能，完成长达 40 分钟时的主线剧情，还能在开放世界自由探索，骑马，打猎，战斗，与 NPC 对话，使用道具，操作地图，甚至商店购物，均不在话下。这是首个能长时间游玩商业 3A 游戏的智能体。

文心智能体平台

百度推出的基于文心大模型的Agent智能体平台，已上架2000+AI智能体

0 查看详情

结束语

开源的 Cradle 代码可以很容易扩展到其他软件和游戏。研究团队表示，为了能够实现真正的通用计算机控制，后续 Cradle 还将移植到更多软件和游戏上，也鼓励相关研究团队 / 工业界开展进一步研究与探索。目标是让智能体可以与无论是开源还是闭源的所有软件进行交互并持续自我提升，实现通用性，最终成为通用人工智能诞生的摇篮。

“GCC is a cradle for AGI.”

—The Cradle team

One more thing：Cradle 技术解读直播

3 月 14 日 14:30-15:30，论文一作新加坡南洋理工大学博士生谭伟豪进行线上解读报告。扫描下图二维码报名。

以上就是向数字世界AGI迈进！智能体已经从头开玩「荒野大镖客 2」了的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/619287.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Meta新增两大万卡集群，投入近50000块英伟达H100 GPU

上一篇 2025年11月11日 05:40:28

如何把大量物理知识塞给AI？EIT和北大团队提出「规则重要性」概念

下一篇 2025年11月11日 05:43:44

好文分享

如何用HTML插入标签云组件_HTML CSS3变换与随机颜色生成算法

使用HTML构建标签结构，CSS3添加旋转与过渡效果，JavaScript生成随机HSL颜色并设置字体大小，实现动态交互的标签云组件。要在网页中实现一个动态的标签云组件，结合 HTML、CSS3 变换和随机颜色生成算法，可以按照以下步骤操作。这个组件不仅能提升页面视觉效果，还能通过色彩和旋转增加交…

程序猿
2025年12月23日
0000
好文分享

如何在Go Gin应用中集成前端JavaScript模块（如Sentry）

本文探讨了在Go Gin框架下，通过HTML模板服务前端页面时，如何有效集成JavaScript模块（如Sentry）。针对浏览器不直接支持Node.js模块导入语法的问题，文章详细阐述了利用CDN引入Sentry SDK的解决方案，并提供了具体的代码示例，帮助开发者实现前端错误监控功能，避免了复杂…

程序猿
2025年12月23日
0000
好文分享

html官网浏览入口_html网站设计免费平台

html官网浏览入口在https://www.codepen.io，该平台支持实时预览代码、创建Pen项目、Fork开源示例，可添加外部资源，具备点赞评论收藏等社区互动功能，设有挑战活动与作品集分类，开放API接口，界面简洁适合初学者，在线编写无需配置环境，支持多种预处理器和响应式测试。 html官…

程序猿
2025年12月23日
0000
好文分享

html如何修改日期样式

在html中，可以使用“::-webkit-datetime-edit”伪元素选择器来修改日期格式，只需要用该选择器选中元素，在设置具体样式即可，具体语法为“::-webkit-datetime-edit{属性:属性值}”。本教程操作环境：windows7系统、CSS3&&HTML…

程序猿
2025年12月21日
1000
好文分享

单选框的type属性值为什么

单选框的type属性值为“radio”。html type属性可以规定要显示的输入框“”元素的类型；值为“radio”时显示为单选框、“checkbox”时显示为复选框、“select”时显示为下拉式选框等等。本教程操作环境：windows7系统、HTML5版、Dell G3电脑。在HTML中，…

程序猿
2025年12月21日
0000
好文分享

HTML中type是什么意思

在HTML中，type是类型的意思，是一个标签属性，主要用于定义标签元素的类型或文档（脚本）的MIME类型；例在input标签中type属性可以规定input元素的类型，在script标签中type属性可以规定脚本的MIME类型。本教程操作环境：windows7系统、html5版、Dell G3电…

程序猿
2025年12月21日
0000
HTML中ul标签如何去掉点？HTML无序列表的样式实例解析

本篇文章主要讲述的是关于html中的ul标签的默认小点给取消掉，还有关于html的无序列表ul标签的样式解释，给出了ul标签中的type属性三种值的介绍。现在就让我们一起来看本篇文章吧首先这篇文章一开始我们就开始介绍在html中是怎么把ul标签的点给去掉的：大家应该都使用过ul无序列表标签，ul…

程序猿
2025年12月21日 • 好文分享
0000
html中的ol标签如何去掉标号呢？标签的使用方法总结

本篇文章介绍了html的ol标签是怎么去掉序号标号的，这里还有代码的详细解释，还有介绍了关于html ol有序列表标签如何更改序号，下文介绍了三种序号，大家也可以自己去想填写怎样的序号。现在来看这篇文章吧一、我们先看看html中的ol标签是如何去掉标号的呢：我们都知道html的ol标签是个有序列…

程序猿
2025年12月21日 • 好文分享
0000
好文分享

HTML ul标签的什么意思？HTML ul标签的作用详解

本篇文章主要的为大家讲解了关于html ul标签的三种重要的用法，还有关于html ul标签的解释，包含li标签的还有type属性对ul标签的使用情况，好了，下面大家一起来看文章吧首先让我们先来解释一下HTML ul标签的意思： ul标签定义的是表格当中无序列表，表格当中的无序列表都是在标签之中…

程序猿
2025年12月21日
0000
好文分享

javascript框架和库是什么_如何选择React、Vue或Angular？

JavaScript框架与库分别提供按需调用的功能集合和约束性开发结构；React是UI组件库，生态灵活但需自行整合工具；Vue渐进式易上手，兼顾原型与工程化；Angular是全功能TypeScript框架，适合强规范企业级项目。 JavaScript框架和库是封装好的代码集合，用来简化前端开发——…

程序猿
2025年12月21日
0000
好文分享

React应用生产环境环境变量配置深度指南

本文针对react应用在生产环境中无法读取`.env`文件配置的环境变量问题，深入剖析其工作原理、常见原因及排查方法。通过详细的步骤和示例代码，指导开发者正确配置和使用环境变量，解决api调用层面的`null`响应问题，确保应用在生产环境下的稳定运行。在React应用开发中，环境变量（如API密钥…

程序猿
2025年12月21日
0000
好文分享

JS注解怎么实现文档化_ JS注解生成开发文档的流程与工具

JSDoc是一种JavaScript结构化注释规范，通过@param、@returns等标签描述代码元素，并借助工具生成HTML文档，结合IDE支持和CI/CD可提升团队协作效率。 JavaScript本身不支持原生注解（Annotation）像Java那样的语法，但通过约定的注释格式和配套工具，可…

程序猿
2025年12月21日
0000
好文分享

JS注解怎么标注联合类型_ JS联合类型的注解书写与使用技巧

在JavaScript中可通过JSDoc使用联合类型注解，如string|number表示多类型支持，结合@param、@typedef等标签提升代码可读性与编辑器提示，适用于函数参数、返回值等场景。在JavaScript中，虽然原生不支持类型注解，但在使用JSDoc配合现代编辑器（如VS Cod…

程序猿
2025年12月21日
0000
好文分享

VS Code主题开发：告别JSON，拥抱脚本化生成

vs code主题扩展最终需json格式定义，但开发者可通过javascript或typescript等脚本语言生成此json文件。这种方法有效解决了大型json文件难以维护、不支持注释等问题，并能实现颜色动态计算，显著提升主题开发的灵活性与效率。为什么选择脚本化生成VS Code主题？在开发V…

程序猿
2025年12月20日
0000
好文分享

如何用Quasar框架开发一个跨平台应用？

Quasar基于Vue.js用一套代码构建多平台应用，支持响应式网站、PWA、移动App和桌面应用。通过quasar create创建项目，利用模式（SPA、PWA、Electron等）切换目标平台，使用Quasar组件库编写通用UI，配合Pinia管理状态，最后通过不同构建命令发布到各平台，实现高…

程序猿
2025年12月20日
0000
好文分享

怎么利用JavaScript进行前端代码覆盖率统计？

答案：利用JavaScript进行前端代码覆盖率统计的核心是通过Istanbul/nyc等工具对代码插桩，结合测试框架收集执行数据并生成报告。具体流程包括：在代码执行前通过Babel或Webpack插件（如babel-plugin-istanbul）插入计数器实现插桩；运行测试时记录哪些代码被执行；…

程序猿
2025年12月20日
1000
好文分享

typescript中的参数分享

TypeScript 中的参数共享允许组件间共享参数，实现跨组件状态维护和数据变更共享。通过 @Input 装饰器传递父组件参数，使用 @Output 装饰器定义子组件事件，以便在子组件状态改变时通知父组件。参数共享提高复用性，简化状态管理，允许子组件向父组件发出通知，但应谨慎使用，避免大量数据共享…

程序猿
2025年12月19日
0000
好文分享

手机如何运行typescript方法

要在手机上运行 TypeScript 方法，可以使用 TypeScript 编译器或第三方库：TypeScript 编译器：将 TypeScript 代码编译成 JavaScript，然后集成到移动应用程序中。第三方库：如 React Native 或 NativeScript，允许使用 Typ…

程序猿
2025年12月19日
0000
好文分享

typescript用来干嘛_typescript的作用

TypeScript 是一种用于构建大型复杂应用程序的开源编程语言，它扩展了 JavaScript 的功能，具有以下作用：类型系统：编译时检查类型错误，提高代码可靠性。面向对象编程特性：支持类、接口、抽象类，增强代码组织性和维护性。模块系统：分解程序为可重用模块，提升可维护性和可扩展性。全面的类型推…

程序猿
2025年12月19日
0000
好文分享

TypeScript基本用法和语法

TypeScript 是一种具有类型系统的 JavaScript 超集，提供以下特性：类型注解：确保变量、函数和类的类型一致。接口：定义方法和属性，供类实现。枚举：提供命名常量集。泛型：创建可重用且类型安全的组件。 TypeScript 基本用法和语法 TypeScript 是一种超集 JavaSc…

程序猿
2025年12月19日
0000

发表回复

登录后才能评论

向数字世界AGI迈进！智能体已经从头开玩「荒野大镖客 2」了

关于作者

相关推荐

发表回复