向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

向数字世界agi迈进!智能体已经从头开玩「荒野大镖客 2」了

通用计算机控制
信息革命产生了数字世界,数字世界为大模型的诞生提供了数据,也最容易实现通用人工智能(AGI)。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

向数字世界 AGI 迈进,北京智源人工智能研究院、新加坡南洋理工大学、北京大学携手提出通用计算机控制 General Computer Control (GCC),即智能体需要像人一样看屏幕,通过键盘、鼠标完成计算机上的所有任务。在过去很长一段时间里,人工智能研究以游戏为场景,而 GCC 将为通用人工智能研究提供场景,也将进一步促进大模型和 AI Agents 的落地与产业化。
为此,研究团队提出通用计算机控制智能体框架 Cradle,使智能体不依赖任何内部 API 直接控制键盘、鼠标和任何软件交互,无论开源还是闭源,甚至能玩《荒野大镖客 2》这样的商业 3A 游戏大作!

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

论文标题:Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study
论文链接:https://arxiv.org/abs/2403.03186
项目主页:https://baai-agents.github.io/Cradle/
代码链接:https://github.com/BAAI-Agents/Cradle
随着大模型的发展,越来越多的智能体(AI Agents)研究关注计算机控制,包括浏览网页、操作智能手机、玩游戏等。然而,已有研究依赖内部 API 获取输入,并输出预先定义好的动作。要构建能完成计算机上一切任务的通用智能体,必须使用最通用和最标准的输入输出与计算机进行交互。因此,通用计算机控制使用统一的输入和输出,从而让智能体的通用性变为可能。
但通用性带来了操作上的难度:(1)使用计算机屏幕作为输入对智能体的视频理解能力提出了更高的要求,例如由于没有内部 API,需要通过视觉信息判断动作是否执行成功;(2)使用键盘和鼠标操作作为输出使得智能体需要更高的时空操作精度,比如键盘按键和鼠标点击通常额外涉及时间维度。如何解决这些难题是构建通用计算机控制智能体 (GCC Agents) 的挑战!
Cradle:操控一切软件

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

「计算机指任何以用户为中心的计算设备,包括 PC、智能手机和平板电脑等。尽管 Cradle 着重于键盘和鼠标操作,但可以很容易扩展到控制手柄和触摸屏等」
通用计算机控制智能体框架 Cradle 主要由 6 个模块组成:信息收集、自我反思、任务推断、技能管理、行动计划以及记忆模块。Cradle 高度的通用性来源于其对和计算机交互过程中的原始输入输出的合理封装和抽象。以从屏幕中显示的视频作为输入,提取其中的文本和视觉信息进行决策,并且输出底层操作系统中控制键盘和鼠标的信号去和计算机交互,使得其可以不依赖于任何假设与所有软件进行交互。

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

「Cradle 主要由信息收集、自我反思、任务推断、技能管理、行动计划以及记忆模块等 6 个模块组成,其强大的决策推理来自于 “反思过去,总结现在,规划未来”」
同时 Cradle 强大的决策推理模块让其得以自发和软件进行交互并且完成任务,这个过程可以被简单地总结为:反思过去,总结现在,规划未来
反思过去:使用执行过往动作过程的视频作为输入,分别提取出其中关键的文本和视觉信息,通过反思来判断上一步动作是否执行成功、任务是否完成以及如何改进。
总结现在:反思完之后,总结当前情况,并且以此为依据来决定是否更换任务目标或是修改任务内容。
规划未来:最后根据当前任务和现状生成或者更新技能,并且从已学会的技能中检索与当前任务相关的技能作为备选,然后从中选取合适的技能实例化为动作去执行。
在决策推理的同时,Cradle 会周期性地总结和维护储存在情境记忆中的历史信息以及储存在长期记忆中的技能。这一过程的大脑是多模态大模型,如 GPT-4V,但是 Cradle 为其添加了总结、反思以及记忆等功能,形成了完整的面向通用计算机控制的智能体框架,有效解决了通用性所带来的难题。
Cradle:带你从头开始探索《荒野大镖客 2》
为了证明框架的通用性和强大的决策能力,研究团队选择将 Cradle 部署到最为困难以及鲜有人探索的的商业 3A 游戏大作《荒野大镖客 2》。他们认为作为操作最为困难的软件,假如 Cradle 能够在 3A 游戏上自由探索甚至完成主线剧情,那么说明该框架有巨大潜力泛化到其他游戏和软件上。

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

「与 Minecraft 这样的开源游戏不同,大多数商业游戏特别是 3A 游戏并不提供内部 API 接口,使得类似 Voyager 这样的依赖内部 API 获取输入并输出预定义动作的框架无法迁移到其他游戏中」
以 GPT-4V 为基础,Cradle 能直接根据游戏内的提示和教程生成对应的可执行代码作为技能,一步步丰富自己的技能库, 并在之后的游戏中重复使用这些技能。

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

在执行了错误动作之后,Cradle 能够有效地通过反思来发现并且纠正错误。

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

Cradle 不仅能从头开始跟随游戏指引生成相应技能,完成长达 40 分钟时的主线剧情,还能在开放世界自由探索,骑马,打猎,战斗,与 NPC 对话,使用道具,操作地图,甚至商店购物,均不在话下。这是首个能长时间游玩商业 3A 游戏的智能体。

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

文心智能体平台 文心智能体平台

百度推出的基于文心大模型的Agent智能体平台,已上架2000+AI智能体

文心智能体平台 0 查看详情 文心智能体平台

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

结束语

开源的 Cradle 代码可以很容易扩展到其他软件和游戏。研究团队表示,为了能够实现真正的通用计算机控制,后续 Cradle 还将移植到更多软件和游戏上,也鼓励相关研究团队 / 工业界开展进一步研究与探索。目标是让智能体可以与无论是开源还是闭源的所有软件进行交互并持续自我提升,实现通用性,最终成为通用人工智能诞生的摇篮。

“GCC is a cradle for AGI.”        

 —The Cradle team

One more thing:Cradle 技术解读直播
3 月 14 日 14:30-15:30,论文一作新加坡南洋理工大学博士生谭伟豪进行线上解读报告。扫描下图二维码报名。

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

以上就是向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/619287.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月11日 05:40:28
下一篇 2025年11月11日 05:43:44

相关推荐

  • AI动画制作工具排行榜 能免费使用的10款AI动画制作工具推荐

    以下是10款免费的AI动画制作工具:1.智影:腾讯推出的在线视频制作平台,提供日漫风格,限时免费。2.Artflow:AI动画创建工具,Story Studio具有视频漫画生成功能,支持12种画面视觉风格。3.Flow Studio:通过文字生成视频片段,支持多种画面风格,新用户有200积分免费生成…

    2025年12月4日 科技
    000
  • Agent Development Kit— 谷歌开源的 AI Agent 开发与部署框架

    agent development kit(adk)是谷歌开源的首个ai智能体开发工具包,这是一个代码优先的python工具包,旨在简化复杂ai代理的构建、评估和部署过程。adk支持多智能体架构,允许开发者构建由多个专业智能体组成的层次化应用,以实现复杂的协调和委派。该工具包提供丰富的工具生态系统,…

    2025年12月4日
    000
  • Linux实现自动挂载autofs的方法详解

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 目录 实现自动挂载-autofs autofs工具简单使用 autofs配置详细说明 自动挂载资源有两种格式 优化Linux系统性能 安装Tuned 选择调整配置文件 检查系统推荐的调整配置文件…

    2025年12月4日
    000
  • Parlant— 开源的大模型AI Agent开发框架

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 千帆大模型平台 面向企业开发者的一站式大模型开发及服务运行平台 0 查看详情 Parlant是什么 parlant是开源的llm(大型语言模型)代理行为建模引擎,帮助开发者快速创建符合业务要求的…

    2025年12月4日 科技
    000
  • BlenderMCP— 基于 MCP 集成的 3D 建模工具

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ MCP Market MCP Servers集合平台,帮你找到最好的MCP服务器 67 查看详情 BlenderMCP是什么 blendermcp是一种将blender与claude ai通过模…

    2025年12月4日 科技
    000
  • Magnitude— 开源 AI Agent 驱动的端到端测试框架

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 白瓜面试 白瓜面试 – AI面试助手,辅助笔试面试神器 40 查看详情 magnitude 是一种开源的、由视觉 ai agents 驱动的端到端测试框架。它通过自然语言构建测试用例…

    2025年12月4日 科技
    000
  • VSCode怎么出现波浪线_VSCode错误提示和语法检查功能说明教程

    VSCode中的波浪线是语言服务、Linter和编译器协同提供的实时反馈,红色表示错误(如语法错误),黄色表示警告(如未使用变量),绿色或下划线表示建议(如代码优化),通过悬停查看提示、检查配置文件(如tsconfig.json、.eslintrc)、使用“问题”面板(Ctrl+Shift+M)定位…

    2025年12月4日
    100
  • 豆包 AI 官网入口 豆包 AI 使用在线入口

    豆包 AI 的官网入口是 https://www.doubao.com/,使用攻略包括:1. 注册与登录:通过官网注册或第三方账号登录;2. 选择使用方式:网页版、PC 客户端、手机 APP、浏览器插件;3. 基础操作:直接对话、上传图片、使用智能体、保存对话;4. 提问技巧:问题具体化、提供背景信…

    2025年12月2日
    100
  • 豆包 AI 网页端入口 豆包 AI 网页端在线网址

    豆包 AI 网页端入口是 https://www.doubao.com/chat/。其特色功能包括:1. 智能问答,提供各领域的准确答案;2. 内容生成与辅助创作,支持写作和图像生成;3. 搜索与浏览辅助,优化搜索结果并提供网页摘要;4. 对话管理与分享,支持对话分组和分享;5. 本地图片编辑,提供…

    2025年12月2日
    000
  • 豆包 AI 手机客户端入口 豆包 AI 客户端在线入口

    安卓用户可通过应用商店下载或官网下载获取豆包AI客户端,iOS用户通过App Store获取。安装后,打开应用并注册登录即可使用。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 入口地址: 1、豆包ai手机客户端入口☜☜☜☜☜点击保存 2、…

    2025年12月2日
    000
  • DeepSeek如何用函数调用自动化任务_DeepSeek用函数调用自动化任务【任务自动化】

    答案:通过配置API环境、定义函数描述、处理调用请求、回传执行结果及支持多轮协作,可利用DeepSeek函数调用实现任务自动化。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 如果您希望利用DeepSeek的函数调用能力实现任务自动化,可以…

    2025年12月2日 科技
    000
  • GitHubCopilot怎样用函数目标提示加速_GitHubCopilot用函数目标提示加速【目标提示】

    使用注释和类型标注可精准引导代码生成:先通过详细注释说明函数目标,再结合类型声明提升补全准确性,最后利用JSDoc等结构化注释触发包含参数校验与异常处理的完整逻辑建议。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 如果您在编写代码时希望利…

    2025年12月2日 科技
    000
  • DeepSeek如何用代码解释器调试脚本_DeepSeek用代码解释器调试脚本【调试辅助】

    首先启用调试模式并设置断点,逐步执行代码以观察变量状态;通过变量面板和打印日志检查数据传递是否正确;利用分段执行与注释隔离法缩小错误范围;最后结合try-except捕获异常,定位具体错误类型与位置。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型…

    2025年12月2日 科技
    000
  • Writesonic怎样用生成续写扩篇幅_Writesonic用生成续写扩篇幅【篇幅扩展】

    使用Writesonic可有效扩写文章:一、用“Continue Writing”功能生成连贯续写;二、通过“Explain this in detail with examples”指令深化内容;三、以“Provide a counter-argument”引入多视角论述;四、利用FAQ生成器创建…

    2025年12月2日 科技
    000
  • 语言模型有重大缺陷,知识推演竟然是老大难

    惊人发现:大模型在知识推演上存在严重缺陷。 灵活运用知识是智慧的关键。人脑可以快速处理知识,如快速回答 “《静夜思》中有几个月字”。那么,大模型是否能进行类似操作?已知大模型可以通过思维链(Chain of Thought / CoT),先默写《静夜思》,再根据默写内容回答问题,但这会使生成的文字冗…

    2025年12月2日 科技
    000
  • ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项

    在法国巴黎举行了国际计算机视觉大会ICCV(International Conference on Computer Vision)本周开幕 作为全球计算机视觉领域顶级的学术会议,ICCV 每两年召开一次。 ICCV的热度一直以来都与CVPR不相上下,屡创新高 在今天的开幕式上,ICCV官方公布了今…

    2025年12月2日 科技
    000
  • 深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑

    机器人技术为什么远远落后于自然语言处理(nlp)、视觉和其他人工智能领域?除了其他困难外,数据短缺是主要原因。为了解决这个问题,谷歌 deepmind 联合其他机构推出了开放式 x-embodiment 数据集,并成功训练出了更强大的 rt-x 模型 在大模型不断取得突破的 2023,把大模型当做大…

    2025年12月2日 科技
    000
  • 实战部署:动态时序网络用于端到端检测和跟踪

    本文经自动驾驶之心公众号授权转载,转载请联系出处。 相信除了少数自研芯片的大厂,绝大多数自动驾驶公司都会使用英伟达NVIDIA芯片,那就离不开TensorRT. TensorRT是在NVIDIA各种GPU硬件平台下运行的一个C++推理框架。我们利用Pytorch、TF或者其他框架训练好的模型,可以首…

    2025年12月2日 科技
    000
  • 生产式AI驱动的主机自动化测试

    译者 | 陈峻 审校 | 重楼 将传统大型主机应用的代码和数据迁移到现代化技术架构上,被认为是企业数字化发展的关键步骤。在追求效率和可扩展性的过程中,这种转变通常涉及从传统大型主机环境迁移到更灵活的云计算或内部部署方案中。这样的转型有助于企业实现更高的灵活性和创新能力,同时降低成本和提高安全性。这种…

    2025年12月2日 科技
    000
  • 毫末龙年春节智驾数据发布:智驾里程994万公里,小魔驼配送近5000单

    2月24日,毫末智行公布了2024年%ign%ignore_a_1%re_a_1%春节数据报告。自2024年2月10日至2月23日,用户开启毫末辅助驾驶的行驶总里程突破994万公里,同比2023年春节激增283.4%。在末端物流自动配送领域,小魔驼配送订单比2023年春节同比增长9.2%。截止202…

    2025年12月2日 科技
    000

发表回复

登录后才能评论
关注微信