Windows、Office直接上手,大模型智能体操作电脑太6了

提到AI助手的未来,人们很容易想到《钢铁侠》系列中的AI助手贾维斯。贾维斯在电影中展现了令人炫目的功能,不仅是托尼・斯塔克的得力助手,也是他与先进科技沟通的桥梁。随着大型模型的出现,人类使用工具的方式正在发生革命性变化,或许我们离科幻场景更近了一步。想象一下,一个多模态Agent能够像人类一样通过键盘和鼠标直接操控我们周围的电脑,这种突破将是多么激动人心。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Windows、Office直接上手,大模型智能体操作电脑太6了

AI助手贾维斯

吉林大学人工智能学院最新研究《ScreenAgent: A Vision Language Model-driven Computer Control Agent》展示了利用视觉大语言模型直接控制电脑 GUI 的想象成为现实。该研究提出了 ScreenAgent 模型,首次探索在不需要额外标签辅助的情况下,通过 VLM Agent 直接操控电脑鼠标和键盘,实现大规模模型直接进行电脑操作的目标。此外,ScreenAgent 运用自动化的「计划-执行-反思」流程,首次实现对 GUI 界面的连续控制。这项工作对人机交互方式进行了探索和创新,同时也开源了包括具有精确定位信息的数据集、控制器、训练代码等资源。

Windows、Office直接上手,大模型智能体操作电脑太6了

论文地址:https://arxiv.org/abs/2402.07945项目地址:https://github.com/niuzaisheng/ScreenAgent

ScreenAgent为用户提供便利的在线娱乐、购物、旅行和阅读体验。它还可作为贴心管家,协助管理个人电脑,实现快速办公。无需费力,即可成为得力的办公助手。通过实际效果,用户可了解其功能。

带你网上冲浪,实现娱乐自由

ScreenAgent 根据用户文本描述上网查找并播放指定的视频:

Windows、Office直接上手,大模型智能体操作电脑太6了

Windows、Office直接上手,大模型智能体操作电脑太6了

系统操作管家,赋予用户高阶技能

让 ScreenAgent 打开 Windows 的事件查看器:

Windows、Office直接上手,大模型智能体操作电脑太6了

掌握办公技能,轻松玩转 office

此外,ScreenAgent 可以使用 office 办公软件。例如根据用户文本描述,删除所打开的第二页 PPT:

Windows、Office直接上手,大模型智能体操作电脑太6了

谋定而后动,知止而有得

对于要完成某一任务,在任务执行前必须要做好规划活动。ScreenAgent 可以在任务开始前,根据观测到的图像和用户需求,进行规划,例如:

将视频播放速度调至 1.5 倍速:

Windows、Office直接上手,大模型智能体操作电脑太6了

在 58 同城网站上搜索二手迈腾车的价格:

Windows、Office直接上手,大模型智能体操作电脑太6了

在命令行里安装 xeyes:

Windows、Office直接上手,大模型智能体操作电脑太6了

视觉定位能力迁移,鼠标选定无压力

文心智能体平台 文心智能体平台

百度推出的基于文心大模型的Agent智能体平台,已上架2000+AI智能体

文心智能体平台 0 查看详情 文心智能体平台

ScreenAgent 还保留了对于自然事物的视觉定位能力,可以通过鼠标拖拽的方式绘制出物体的选框:

Windows、Office直接上手,大模型智能体操作电脑太6了

Windows、Office直接上手,大模型智能体操作电脑太6了

方法

事实上,要教会 Agent 与用户图形界面直接交互并不是一件简单的事情,需要 Agent 同时具备任务规划、图像理解、视觉定位、工具使用等多种综合能力。现有的模型或交互方案都存在一定妥协,例如 LLaVA-1.5 等模型缺乏在大尺寸图像上的精确视觉定位能力;GPT-4V 有非常强的任务规划、图像理解和 OCR 的能力,但是拒绝给出精确的坐标。现有的方案需要在图像上人工标注额外的数字标签,并让模型选择需要点选的 UI 元素,例如 Mobile-Agent、UFO 等项目;此外,CogAgent、Fuyu-8B 等模型可以支持高分辨率图像输入并有精确视觉定位能力,但是 CogAgent 缺乏完整函数调用能力,Fuyu-8B 则语言能力欠缺。

为了解决上述问题,文章提出为视觉语言模型智能体(VLM Agent)构建一个与真实计算机屏幕交互的全新环境。在这个环境中,智能体可以观察屏幕截图,并通过输出鼠标和键盘操作来操纵图形用户界面。为了引导 VLM Agent 与计算机屏幕进行持续的交互,文章构建了一个包含「计划-执行-反思」的运行流程。在计划阶段,Agent 被要求将用户任务拆解为子任务。在执行阶段,Agent 将观察屏幕截图,给出执行子任务的具体鼠标和键盘动作。控制器将执行这些动作,并将执行结果反馈给 Agent。在反思阶段,Agent 观察执行结果,并判定当前的状态,选择继续执行、重试或调整计划。这一流程持续进行,直到任务完成。值得一提的是,ScreenAgent 无需使用任何文字识别或图标识别模块,使用端到端的方式训练模型所有的能力。

Windows、Office直接上手,大模型智能体操作电脑太6了

ScreenAgent 环境参考了 VNC 远程桌面连接协议来设计 Agent 的动作空间,包含最基础的鼠标和键盘操作,鼠标的点击操作都需要 Agent 给出精确的屏幕坐标位置。相比起调用特定的 API 来完成任务,这种方式更加通用,可以适用于各种 Windows、Linux Desktop 等桌面操作系统和应用程序。

Windows、Office直接上手,大模型智能体操作电脑太6了

ScreenAgent 数据集

为了训练 ScreenAgent 模型,文章人工标注了具备精准视觉定位信息的 ScreenAgent 数据集。这一数据集涵盖了丰富的日常计算机任务,包括了 Windows 和 Linux Desktop 环境下的文件操作、网页浏览、游戏娱乐等场景。

Windows、Office直接上手,大模型智能体操作电脑太6了

数据集中每一个样本都是完成一个任务的完整流程,包含了动作描述、屏幕截图和具体执行的动作。例如,在亚马逊网站上「将最便宜的巧克力加入到购物车」的案例,需要先在搜索框中搜索关键词,再使用过滤器对价格进行排序,最后将最便宜的商品加入购物车。整个数据集包含 273 条完整的任务记录。

Windows、Office直接上手,大模型智能体操作电脑太6了

实验结果

在实验分析部分作者将 ScreenAgent 与多个现有的 VLM 模型从各个角度进行比较,主要包括两个层面,指令跟随能力和细粒度动作预测的正确率。指令跟随能力主要考验模型能否正确输出 JSON 格式的动作序列和动作类型的正确率。而动作属性预测的正确率则比较每一种动作的属性值是否预测正确,例如鼠标点击的位置、键盘按键等。

指令跟随

在指令跟随方面,Agent 的首要任务就是能够根据提示词输出正确的工具函数调用,即输出正确的 JSON 格式,在这方面 ScreenAgent 与 GPT-4V 都能够很好的遵循指令,而原版的 CogAgent 由于在视觉微调训练时缺乏 API 调用形式的数据的支撑,反而丧失了输出 JSON 的能力。

Windows、Office直接上手,大模型智能体操作电脑太6了

动作属性预测的正确率

从动作属性的正确率来看,ScreenAgent 也达到了与 GPT-4V 相当的水平。值得注意的是,ScreenAgent 在鼠标点击的精确度上远远超过了现有模型。这表明视觉微调有效增强了模型的精确定位能力。此外,我们还观察到 ScreenAgent 在任务规划方面与 GPT-4V 相比存在明显差距,这凸显了 GPT-4V 的常识知识和任务规划能力。

Windows、Office直接上手,大模型智能体操作电脑太6了

Windows、Office直接上手,大模型智能体操作电脑太6了

结论

吉林大学人工智能学院团队提出的 ScreenAgent 能够采用与人类一样的控制方式控制电脑,不依赖于其他的 API 或 OCR 模型,可以广泛应用于各种软件和操作系统。ScreenAgent 在「计划-执行-反思」的流程控制下,可以自主地完成用户给定的任务。采用这样的方式,用户可以看到任务完成的每一步,更好地理解 Agent 的行为想法。

文章开源了控制软件、模型训练代码、以及数据集。在此基础上可以探索更多迈向通用人工智能的前沿工作,例如在环境反馈下的强化学习、Agent 对开放世界的主动探索、构建世界模型、Agent 技能库等等。

此外,AI Agent 驱动的个人助理具有巨大的社会价值,例如帮助肢体受限的人群使用电脑,减少人类重复的数字劳动以及普及电脑教育等。在未来,或许不是每个人都能成为像钢铁侠那样的超级英雄,但我们都可能拥有一位专属的贾维斯,一位可以陪伴、辅助和指导我们的智能伙伴,为我们的生活和工作带来更多便利与可能。

以上就是Windows、Office直接上手,大模型智能体操作电脑太6了的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/621855.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
苹果手机下载不了软件怎么办
上一篇 2025年11月11日 06:59:31
平安好车主如何进行紧急呼叫_平安好车主进行紧急呼叫详细方法
下一篇 2025年11月11日 06:59:35

相关推荐

  • 如何在H5环境中实现EXCEL和Word文件的在线预览?

    H5环境下EXCEL和Word文件在线预览技术详解 在如今的Web应用中,在线预览文档功能至关重要,尤其对于需要处理大量文件的企业应用。本文将介绍两种无需插件,直接在浏览器中预览EXCEL和Word文件的方法。 企业对在线文档预览的需求日益增长,以提高效率和协同性。下面我们探讨两种有效的H5在线预览…

    2026年5月10日
    000
  • 如何从Google Drive中恢复被转换为GDoc的原始HTML文件

    当HTML文件上传至Google Drive后被自动转换为Google Docs格式时,用户可能无法直接下载原始HTML文件。本教程将详细指导您如何利用Google Docs的版本历史功能,找到并下载最初上传的HTML文件,解决下载时仅获取渲染视图而非原始文件的问题。 引言:Google Drive…

    2026年5月10日
    000
  • PHPSpreadsheet:复制Excel单元格内容与样式的教程

    phpspreadsheet复制单元格时,直接获取值的方法无法保留样式。本教程详细介绍了如何通过分离值和样式处理,先获取源单元格的样式数组,再将其应用到目标单元格,从而实现单元格内容及其格式的完整复制。 引言 在使用PHPSpreadsheet处理Excel文件时,开发者常常需要将一个单元格的内容连…

    2026年5月10日
    000
  • PHPSpreadsheet:实现单元格值与格式同步复制的专业指南

    本教程详细介绍了如何使用phpspreadsheet库在excel文件中复制单元格内容及其完整的样式格式。不同于仅复制值的`getvalue`等方法,我们将学习如何通过导出源单元格的样式数组,并将其应用到目标单元格,从而实现数据与格式的同步迁移,确保复制后的单元格外观保持一致。 在使用PHPSpre…

    2026年5月10日
    100
  • html5如何读取word_HTML5读取Word文档方法与文件解析技巧【教程】

    可在浏览器中用前端技术解析.docx文件:一、mammoth.js转HTML;二、JSZip+docxtemplater读XML;三、Office.js仅限加载项;四、原生JSZip手动解压提取。 如果您希望在浏览器中直接读取 Word 文档内容,但 Word 文件(.docx)本质上是 ZIP 压…

    2026年5月10日
    000
  • C++如何实现建造者 C++建造者模式的设计

    C++如何实现建造者 C++建造者模式的设计C++如何实现建造者 C++建造者模式的设计C++如何实现建造者 C++建造者模式的设计C++如何实现建造者 C++建造者模式的设计

    建造者模式与工厂模式的区别在于,工厂模式用于创建不同类型的对象,而建造者模式专注于构建复杂对象的不同部分。1. 工厂模式通常一步返回完整对象;2. 建造者模式允许逐步构建并控制过程;3. 建造者适用于对象构建复杂、需灵活配置组件的情况;4. 建造者避免构造函数臃肿,提高可维护性;5. c++++中通…

    2026年5月10日 用户投稿
    000
  • HTML文件选择器accept属性为何无法有效过滤CSV文件?

    html文件上传控件accept属性无法有效过滤csv文件? 网页开发中,我们常使用元素让用户选择文件上传。accept属性用于限制可选择的文件类型,提升用户体验和安全性。然而,该属性并非总是完美运行。本文分析accept属性无法正确过滤CSV文件的问题,并提供解决方案。 问题: 开发者希望仅允许上…

    2026年5月10日
    000
  • 如何高效地在Go中使用http.ResponseWriter构建JSONP响应

    本教程探讨在go语言中高效构建jsonp响应的方法,重点解决如何使用`http.responsewriter`处理回调函数封装。文章通过对比传统字符串拼接与字节切片转换的不足,详细介绍了利用`fmt.fprintf`直接写入和`fmt.sprintf`预格式化两种优化方案,旨在提升代码的简洁性和执行…

    2026年5月10日
    000
  • HTML 文件选择器 MIME 类型设置失效的原因和解决方案?

    文件选择器设置 mime 类型失效问题 问题: 使用 HTML 文件选择器时,设置了多种文件类型的 MIME 类型,但部分类型未能生效,例如 CSV 文件。 代码: 原因: 默认情况下,文件选择器会将 MIME 类型视为 AND 逻辑,这意味着所有指定的 MIME 类型都必须匹配才能生效。因此,当没…

    2026年5月10日
    000
  • KMS Tools 20260203 神龙KMS激活工具合集

    KMS Tools Portable是一款激活windows和office的工具合集包,此软件集合老外@Ratiborus制作的其他几个软件。相当的实用,且安全便携无毒。可以激活最新的WIN10 、WIN8全系列、WIN7 Office2016、Visio2016、Project2016、OFFIC…

    2026年4月21日
    1001
  • CSS 太棒了!

    我正在学习什么 css 赋予了页面活力。多年来,css 变得越来越强大,并且已经开始用于制作以前需要 javascript 的动画。本周我一直在研究它的一些更高级的属性。 媒体查询 媒体查询几乎已经成为新时代设备的必需品。随着智能手机的出现,通过手机消费媒体的人比任何其他设备都多。因此,网站必须在移…

    2025年12月24日
    300
  • html5能否插入在线文档链接_html5在线文档嵌入与权限设置【教程】

    HTML5中嵌入在线文档需根据来源选择方案:一、用iframe嵌入Google Docs等公开文档,须设“任何人可查看”;二、通过OnlyOffice等第三方服务中转,确保响应头允许嵌入;三、用object/embed加载PDF,需服务器配置CORS;四、无法修改源站时,可用服务端代理过滤禁用响应头…

    2025年12月23日
    000
  • 如何将文件存为html_将其他格式文件保存为HTML格式【保存】

    可将非HTML文档转为浏览器可打开的HTML文件,方法包括:一、Word另存为网页;二、Typora导出Markdown;三、记事本手写HTML代码保存;四、LibreOffice导出HTML;五、在线工具转换。 如果您拥有非HTML格式的文档(如Word、Markdown、纯文本等),但需要将其转…

    2025年12月23日
    000
  • 如何使文档变成html_将文档转换为HTML格式步骤【格式】

    可将普通文档转为HTML文件,方法包括:一、用Word等软件导出;二、手写HTML代码;三、用pandoc等工具转Markdown;四、借助在线服务;五、用Python脚本批量处理。 如果您拥有一份普通文档(如Word、纯文本或Markdown格式),但需要将其呈现为可在浏览器中打开的HTML文件,…

    2025年12月23日
    000
  • 动态生成HTML表格:优化JavaScript数据展示与导出

    本文旨在解决JavaScript中动态生成HTML表格时遇到的代码冗余和样式控制难题。通过引入数据驱动的编程思想,我们将数据与视图逻辑分离,首先将表格内容组织为JavaScript对象数组,然后利用一个通用的函数将这些结构化数据渲染为可读性强、易于维护且支持灵活样式的HTML表格字符串。这种方法不仅…

    2025年12月23日
    000
  • HTML5性能优化怎么实现_HTML5新特性在性能优化方面的应用方法

    HTML5通过语义化标签、Web Storage、Canvas/SVG、Service Worker和原生媒体支持等技术提升性能:1. 语义化标签优化渲染效率;2. Web Storage减少网络请求;3. Canvas/SVG降低资源加载量;4. Service Worker实现离线缓存;5. 原…

    2025年12月23日
    100
  • Python f-string 中字面量大括号的正确使用与转义

    在 python 的 f-string 中嵌入包含大括号的字符串(如 javascript 代码或 json)时,必须对字面量大括号进行转义。f-string 会将单层大括号 `{}` 视为表达式占位符,因此需要使用双层大括号 `{{}}` 来表示实际的字面量大括号,从而避免语法解析错误,确保字符串…

    2025年12月23日
    000
  • html转excel工具_html转excel网页版转换器

    答案:html转excel工具可在Convertio官网使用。该平台支持在线将HTML表格转换为Excel,无需安装软件,提供批量上传、保留格式、智能识别等功能,适用于多场景数据整理,操作简单且保障隐私安全。 html转excel工具_html转excel网页版转换器在哪里?这是不少网友都关注的,接…

    2025年12月23日
    000
  • 如何强制Microsoft Edge浏览器直接下载Office文件而非在线预览

    本文旨在解决Microsoft Edge浏览器在处理Office文件超链接时,默认启用在线预览而非直接下载的问题。通过修改服务器(以Nginx为例)的HTTP响应头,特别是设置Content-Disposition: attachment和Content-Type: application/octe…

    2025年12月23日
    000
  • html转word工具_html转word网页版入口

    html转word网页版入口是https://www.htmltowordconverter.com,该平台支持HTML文档转换为Word文件,保留排版与样式,兼容本地上传和URL导入,提供实时预览与批量处理功能;界面简洁无需安装软件,支持主流浏览器,转换高效稳定;输出文件保持字体、颜色、图片布局,…

    2025年12月23日
    200

发表回复

登录后才能评论
关注微信