☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
向数字世界 AGI 迈进,北京智源人工智能研究院、新加坡南洋理工大学、北京大学携手提出通用计算机控制 General Computer Control (GCC),即智能体需要像人一样看屏幕,通过键盘、鼠标完成计算机上的所有任务。在过去很长一段时间里,人工智能研究以游戏为场景,而 GCC 将为通用人工智能研究提供场景,也将进一步促进大模型和 AI Agents 的落地与产业化。为此,研究团队提出通用计算机控制智能体框架 Cradle,使智能体不依赖任何内部 API 直接控制键盘、鼠标和任何软件交互,无论开源还是闭源,甚至能玩《荒野大镖客 2》这样的商业 3A 游戏大作!
论文标题:Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study论文链接:https://arxiv.org/abs/2403.03186项目主页:https://baai-agents.github.io/Cradle/代码链接:https://github.com/BAAI-Agents/Cradle随着大模型的发展,越来越多的智能体(AI Agents)研究关注计算机控制,包括浏览网页、操作智能手机、玩游戏等。然而,已有研究依赖内部 API 获取输入,并输出预先定义好的动作。要构建能完成计算机上一切任务的通用智能体,必须使用最通用和最标准的输入输出与计算机进行交互。因此,通用计算机控制使用统一的输入和输出,从而让智能体的通用性变为可能。但通用性带来了操作上的难度:(1)使用计算机屏幕作为输入对智能体的视频理解能力提出了更高的要求,例如由于没有内部 API,需要通过视觉信息判断动作是否执行成功;(2)使用键盘和鼠标操作作为输出使得智能体需要更高的时空操作精度,比如键盘按键和鼠标点击通常额外涉及时间维度。如何解决这些难题是构建通用计算机控制智能体 (GCC Agents) 的挑战!Cradle:操控一切软件
agent development kit(adk)是谷歌开源的首个ai智能体开发工具包,这是一个代码优先的python工具包,旨在简化复杂ai代理的构建、评估和部署过程。adk支持多智能体架构,允许开发者构建由多个专业智能体组成的层次化应用,以实现复杂的协调和委派。该工具包提供丰富的工具生态系统,…
使用Writesonic可有效扩写文章:一、用“Continue Writing”功能生成连贯续写;二、通过“Explain this in detail with examples”指令深化内容;三、以“Provide a counter-argument”引入多视角论述;四、利用FAQ生成器创建…
惊人发现:大模型在知识推演上存在严重缺陷。 灵活运用知识是智慧的关键。人脑可以快速处理知识,如快速回答 “《静夜思》中有几个月字”。那么,大模型是否能进行类似操作?已知大模型可以通过思维链(Chain of Thought / CoT),先默写《静夜思》,再根据默写内容回答问题,但这会使生成的文字冗…