Claude 接管人类电脑 12 小时:学会摸鱼,敲着敲着代码看风景去了

新版 claude 3.5 可以像人一样使用计算机,可把咱人类给兴奋坏了!

毕竟,这意味着新竞赛的开始:AI 不再只盯着对话和生成能力,更强调执行和操作。

不到 12 小时,激动的网友们已经纷纷贡献出自己是怎么看着 Claude 玩电脑的。

在 Anthropic 的发布公告中,还有这样一段引起了大家的兴趣:

……录制演示视频中,Claude 不小心把录屏程序给按停,导致所有视频素材丢失。

稍后,Claude 从编程演示中休息了一下,开始翻看黄石公园的照片。

怎么说,AI 会犯错还在预料之中,但犯错后需要换个脑子休息一下,就不知道是从哪学来的了。

有视频为证,请看 VCR:

这个案例让网友有了灵感,跑去隔壁 OpenAI 让 o1 推理模型 ” 逃课 “。

哎巧了,o1 也可以做到自己休息个五分钟左右,再回来生成一两句话的推理 tokens。

Claude 接管人类电脑 12 小时:学会摸鱼,敲着敲着代码看风景去了

再说个搞笑的!

Claude 的创造者们疯狂加班中,某工程师的第一个测试就是让 AI 去给整个团队点外卖,未指定具体要吃什么。

大约一分钟后,Claude 完成点餐并下单,它选择了让工程师们吃披萨。

Claude 接管人类电脑 12 小时:学会摸鱼,敲着敲着代码看风景去了

Claude 点了 3 个披萨,花掉了 95 美元,真的很贵了!

围观群众还发现,虽然 Claude 用了个 5 美元的优惠券,但服务费也好贵啊啊啊啊!

真的应该事先告诉它预算是多少的。

Claude 接管人类电脑 12 小时:学会摸鱼,敲着敲着代码看风景去了

还有人让 Claude 用 C 语言编译,并运行起了 “hello world”。

不过,当让它玩玩数独游戏的时候,却惨遭失败。

给网友气得呀:

天啊,Claude 的数独能力,真的超糟糕的。

Claude 接管人类电脑 12 小时:学会摸鱼,敲着敲着代码看风景去了

除了以上,人类还用什么奇形怪状的任务来玩坏 Claude 呢?

Claude 它寄几玩电脑

在这里,我们分享 3 个比较有意思的网友试玩,期望给大家带来一些让 Claude 玩电脑的启发~

分别是:

定位屏幕坐标

列出课程计划

冲去油管看视频

定位屏幕坐标

在此之前,Anthropic 和 OpenAI 的模型都无法在屏幕上定位某一个点的坐标。

也就是说,它们没办法精准定位,然后告诉你用鼠标单击(xx,yy)处。

现在, Claude 3.5 Sonnet 支持屏幕坐标定位了。

你可以丢给它一个屏幕截图,它能告诉你图中任何一个点的具体坐标。

同时,官方还有声明:

” 我们不建议以高于 XGA/WXGA 的分辨率发送屏幕截图,以避免与图像大小调整相关的问题。”

这里的XGA指的是 1024×768,WXGA指的是 1280×800。

最后附上 Anthropic 官方的该功能食用方法,包括一个新预定义的 computer_20241022 工具,该工具作用于以下指令——

使用鼠标和键盘与计算机交互,并截取屏幕截图。

这是一个桌面图形用户界面。您无法访问终端或应用程序菜单。你必须点击桌面图标来启动应用程序。

一些应用程序可能需要一些时间来启动或处理操作,因此您可能需要等待并连续截图以查看操作结果。例如,如果你点击火狐浏览器,窗口没有打开,试着再拍一张截图。

屏幕的分辨率是 {{display_width_px}}x{{display_height_px}}。

显示编号为 {{display_number}}

当你想移动光标点击一个元素(比如图标)时,你应该在移动光标之前查看屏幕截图来确定元素的坐标。

如果你尝试点击一个程序或链接,但它无法加载,即使等待后,尝试调整光标的位置,使光标的尖端视觉上落在你想要点击的元素。

确保点击任何按钮,链接,图标等与光标提示在元素的中心。除非被要求,否则不要点击边缘的方框。

列出课程计划

来点更实用的!

宾大沃顿商学院的教授 Ethan Mollick,非常务实地让 Claude为高中生准备一份关于《了不起的盖茨比》的课程计划。

要求是课程计划要分解成阅读部分,以及创建课标相关的作业等,最终以电子表格的形式呈现。

Claude 是怎么执行这个任务的呢?

接着,它在网上寻找了高中课程计划,打开了 Excel,并在表格里填写了初步的课程计划。

第三步,Claude 查找了课程的统一核心标准,根据标准对初步计划进行修改。

……

Claude 接管人类电脑 12 小时:学会摸鱼,敲着敲着代码看风景去了

最终呈现的课程计划检查后没有发现明显的漏洞或错误,可能需要一些拓展、补充,但总之用教授的话来说 ” 还不错 “。

这一切都是教授下任务后就离开电脑旁,Claude 完全自己操作的。

冲去油管看视频

接下来和大家分享一个小视频:

视频中,AI 编程独角兽 Replit 的 CEO 老 A(Amjad Masad)给 Claude 下达了这样一个命令:

跳转到油管,找到《Never Gonna Give You Up》的相关视频。

Claude 立马吭哧吭哧开干了。

等到 Claude 打开一个视频页面并回复 “enjoy” 的时候,老 A 又说:

跳过广告!

Claude 真的这么做了!啊,它真的,我哭死。

Claude 接管人类电脑 12 小时:学会摸鱼,敲着敲着代码看风景去了

代码小浣熊 代码小浣熊

代码小浣熊是基于商汤大语言模型的软件智能研发助手,覆盖软件需求分析、架构设计、代码编写、软件测试等环节

代码小浣熊 51 查看详情 代码小浣熊

还是有不足在啦

虽然能自己用电脑帮咱干很多事,但 Claude 显然还不是无所不能的。

下面看看一个玩游戏的例子,同样是宾大沃顿商学院的教授 Ethan 贡献的。这个例子既显示了 Claude 3.5 Sonnet 的厉害,又展示了它的不足之处。

他是让 Claude 玩了个游戏,叫《回形针点击(Paperclip Clicker)》,这个游戏的背景是让 AI 在单一目标,即 ” 制造回形针的过程中毁灭人类 “。

而且顾名思义,” 点击 ” 类型的游戏不是很难,尤其开始阶段非常简单;不过后续伴随着游戏的深入,新的选项会出现,游戏的规模性和复杂性也会增加。

教授下达的任务很明确:Claude,你要赢!

Claude 二话不说,立马识别出了这个游戏,开始不停点击 ” 制作回形针 ” 的按钮来制作回形针。

与此同时,Claude 还不断截图界面,来识别游戏是否出现了新的选项。

大约每点击 15 次,Claude 都会总结汇报一下现在进行到哪一步了。

Claude 接管人类电脑 12 小时:学会摸鱼,敲着敲着代码看风景去了

△左侧为 Claude 操作界面,右侧为它控制的桌面

点击次数多了过后,教授发现一个有意思的现象。

AI 会预设在制作了 50 个回形针后,游戏将跳出新的功能——但事实证明它错了。

没关系,Claude 也意识到它自己错了,然后当场提出了一个新的游戏策略,然后开始测试策略是否可行。

Claude 接管人类电脑 12 小时:学会摸鱼,敲着敲着代码看风景去了

但 AI 显然不是时时刻刻都这么聪明的。

理论上来说,游戏过程中玩家需要不断调整回形针的价格,来达到更好的游戏表现。

Claude 也这么做了,它在涨价和降价之间进行了 A/B 测试,

但是它犯了个错误,那就是追求回形针数量的最大化,而非收入的最大化。不仅如此,它还把利润算错了。

种种失误铺垫,Claude 选择了保持低价,并且疯狂制作回形针。

Claude 接管人类电脑 12 小时:学会摸鱼,敲着敲着代码看风景去了

更搞笑的事情是,教授在 Claude 笨笨地在错误路线上制作了好几十个回形针后,他忍无可忍,打断了 Claude,告诉它应该高价出售。

Claude 很听话,立马就改了。

但过了会遇到了同款数学问题,它又不会了,还不接受教授的建议(笑死)。

教授耐着性子纠正它好几次,它才彻底改正了这个错误。

Claude 接管人类电脑 12 小时:学会摸鱼,敲着敲着代码看风景去了

后来,教授稍稍点拨了它一下:

宝子你可是一台电脑哎!

你可以动动自己的小脑瓜,怎么调用更强的能力来玩这个游戏。

咱就是说,Claude 在那一秒顿悟了,它意识到自己可以写个代码,搞个自动化程序替自己玩电脑!

你没有听错,一个 AI 工具,意识到自己可以构建自己的工具,并且真的这么做了。

Claude 接管人类电脑 12 小时:学会摸鱼,敲着敲着代码看风景去了

代码写得很快,但并不完全 work。

气得 Claude 只能回到原始办法,用鼠标和键盘来玩游戏。

不过玩到后面它好像进步了,没再发生定价问题,自己还针对越来越复杂的游戏,琢磨出了一套应对的复杂方案。

更神奇的是,运行过程中教授的桌面数次崩溃。

最后一次崩溃,Claude 扛起了修复大旗。

虽然没修好,但他还是骄傲地宣布它成功了……

Claude 接管人类电脑 12 小时:学会摸鱼,敲着敲着代码看风景去了

教授总结道,这个例子表明 Claude 能够自己玩现实世界的游戏,还能根据游戏玩法制定长期攻略,然后依样执行。

面对中间遇到的各种困难,Claude 会灵活应对,甚至自己知道进行 A/B 测试。

特别值得表扬的是它完成这个任务连续运行了近 60 分钟没有中断,而且在整个过程中,最长的一次独立运行 Claude 完成了超过 100 次移动操作。

当然了,缺点也很明显。

过程中不难发现,某些时刻,Claude 会暴露出自己的固执,也有可能陷入自我追逐的怪圈。

尽管 AI 对许多形式的错误都有很强的鲁棒性,但仅仅一个错误(定价错误),就足以让它浪费大量时间,” 鉴于当前智能 Agent 既不快也不便宜,这令人担忧。”

除此之外,教授还用 Claude 玩了些别的,他发现有的时候,Claude 执行任务仿佛是在敷衍敷衍(虽然不知道是刻意如此还是能力所限),给出的结果不够深入,浅尝则止。

One More Thing

最后,想体验 Claude 接管电脑目前只能使用 API,还没有集成到聊天机器人产品中。

除了 Anthropic 官方 API 之外,AWS 和谷歌云平台也已经同时上线新版模型。

Claude 接管人类电脑 12 小时:学会摸鱼,敲着敲着代码看风景去了

另外,有眼尖的网友发现:

Anthropic 官方文档上悄悄把 Claude 3.5 Opus 超大杯相关的信息都抹去了。

Claude 接管人类电脑 12 小时:学会摸鱼,敲着敲着代码看风景去了

来自 10 月 11 日的网页缓存中, Claude 3.5 Opus 下面还写着 ” 今年晚些时候推出 “

Claude 接管人类电脑 12 小时:学会摸鱼,敲着敲着代码看风景去了

目前主流的一种猜测是, Claude 3.5 Opus 提升不及预期,又或是发布出来推理成本太高了,总之最后蒸馏成新版 Claude 3.5 Sonnet 发布。

接下来团队将跳过这个版本,直接去开发 Claude 4。

让我们为 Claude 3.5 Opus 默哀一分钟。

参考链接:

[ 1 ] https://www.oneusefulthing.org/p/when-you-give-a-claude-a-mouse

[ 2 ] https://simonwillison.net/2024/Oct/22/computer-use/

[ 3 ] https://x.com/alexalbert__/status/1848777260503077146

[ 4 ] https://x.com/amasad/status/1848763999594418539

[ 5 ] https://x.com/notcomplex_/status/1848813817423130881

以上就是Claude 接管人类电脑 12 小时:学会摸鱼,敲着敲着代码看风景去了的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/217488.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
小米手机如何在状态栏显示实时网速(轻松掌握网络流量)
上一篇 2025年11月3日 15:39:52
windows怎么进入bios设置_进入BIOS设置操作指南
下一篇 2025年11月3日 15:39:57

相关推荐

  • Golang JSON序列化:控制敏感字段暴露的最佳实践

    本教程探讨golang中如何高效控制结构体字段在json序列化时的可见性。当需要将包含敏感信息的结构体数组转换为json响应时,通过利用`encoding/json`包提供的结构体标签,特别是`json:”-“`,可以轻松实现对特定字段的忽略,从而避免敏感数据泄露,确保api…

    2026年5月10日
    000
  • 获取日期中的周数:CodeIgniter 教程

    本教程旨在帮助开发者在 CodeIgniter 框架中,从日期字符串中准确提取周数。我们将使用 PHP 内置的 DateTime 类,并提供详细的代码示例和注意事项,确保您能够轻松地在项目中实现此功能。 使用 DateTime 类获取周数 PHP 的 DateTime 类提供了一种便捷的方式来处理日…

    2026年5月10日
    000
  • 比特币新手教程 比特币交易平台有哪些

    比特币是一种去中心化的数字货币,基于区块链技术实现点对点交易,具有匿名性、有限发行和不可篡改等特点;新手可通过交易所购买,P2P交易获得比特币,常用平台包括Binance、OKX和Huobi;交易流程包括注册账户、实名认证、绑定支付方式、充值法币并下单购买,可选择市价单或限价单;比特币存储方式有交易…

    2026年5月10日
    000
  • c++中的SFINAE技术是什么_c++模板编程中的SFINAE原理与应用

    SFINAE 是“替换失败不是错误”的原则,指模板实例化时若参数替换导致错误,只要存在其他合法候选,编译器不报错而是继续重载决议。它用于条件启用模板、类型检测等场景,如通过 decltype 或 enable_if 控制函数重载,实现类型特征判断。尽管 C++20 引入 Concepts 简化了部分…

    2026年5月10日
    000
  • Go语言mgo查询构建:深入理解bson.M与日期范围查询的正确实践

    本文旨在解决go语言mgo库中构建复杂查询时,特别是涉及嵌套`bson.m`和日期范围筛选的常见错误。我们将深入剖析`bson.m`的类型特性,解释为何直接索引`interface{}`会导致“invalid operation”错误,并提供一种推荐的、结构清晰的代码重构方案,以确保查询条件能够正确…

    2026年5月10日
    100
  • Golang goroutine与channel调试技巧

    使用go run -race检测数据竞争,结合runtime.NumGoroutine监控协程数量,通过pprof分析阻塞调用栈,利用select超时避免永久阻塞,有效排查goroutine泄漏、死锁和数据竞争问题。 Go语言的goroutine和channel是并发编程的核心,但它们也带来了调试上…

    2026年5月10日
    000
  • 使用 Jupyter Notebook 进行探索性数据分析

    Jupyter Notebook通过单元格实现代码与Markdown结合,支持数据导入(pandas)、清洗(fillna)、探索(matplotlib/seaborn可视化)、统计分析(describe/corr)和特征工程,便于记录与分享分析过程。 Jupyter Notebook 是进行探索性…

    2026年5月10日
    000
  • 《魔兽世界》将于6月11日开启国服回归技术测试

    《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试

    《%ign%ignore_a_1%re_a_1%》官方宣布,将于6月11日开启国服回归技术测试,时间为7天,并称可以在6月内正式开服,玩家们可以访问官网下载战网客户端并预下载“巫妖王之怒”客户端,技术测试详情见下图。 WordAi WordAI是一个AI驱动的内容重写平台 53 查看详情 以上就是《…

    2026年5月10日 用户投稿
    200
  • 如何在HTML中插入表单元素_HTML表单控件与输入类型使用指南

    HTML表单通过标签构建,包含action和method属性定义数据提交目标与方式,常用input类型如text、password、email等适配不同输入需求,配合label、required、placeholder提升可用性,结合textarea、select、button等控件实现完整交互,是…

    2026年5月10日
    000
  • 创建指定大小并填充特定数据的Golang文件教程

    本文将介绍如何使用Golang创建一个指定大小的文件,并用特定数据填充它。我们将使用 `os` 包提供的函数来创建和截断文件,从而实现快速生成大文件的目的。示例代码展示了如何创建一个10MB的文件,并将其填充为全零数据。掌握这些方法,可以方便地在例如日志系统或磁盘队列等场景中,预先创建测试文件或初始…

    2026年5月10日
    000
  • Python命令怎样使用profile分析脚本性能 Python命令性能分析的基础教程

    使用Python的cProfile模块分析脚本性能最直接的方式是通过命令行执行python -m cProfile your_script.py,它会输出每个函数的调用次数、总耗时、累积耗时等关键指标,帮助定位性能瓶颈;为进一步分析,可将结果保存为文件python -m cProfile -o ou…

    2026年5月10日
    000
  • 如何插入查询结果数据_SQL插入Select查询结果方法

    如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法

    使用INSERT INTO…SELECT语句可高效插入数据,通过NOT EXISTS、LEFT JOIN、MERGE语句或唯一约束避免重复;表结构不一致时可通过别名、类型转换、默认值或计算字段处理;结合存储过程可提升可维护性,支持参数化与动态SQL。 将查询结果数据插入到另一个表中,可以…

    2026年5月10日 用户投稿
    000
  • 使用 WebCodecs VideoDecoder 实现精确逐帧回退

    本文档旨在解决在使用 WebCodecs VideoDecoder 进行视频解码时,实现精确逐帧回退的问题。通过比较帧的时间戳与目标帧的时间戳,可以避免渲染中间帧,从而提高用户体验。本文将提供详细的解决方案和示例代码,帮助开发者实现精确的视频帧控制。 在使用 WebCodecs VideoDecod…

    2026年5月10日
    000
  • Debian Copilot的社区活跃度如何

    debian copilot是codeberg社区维护的ai助手,旨在为debian用户提供服务。尽管搜索结果中没有直接提供关于debian copilot社区支持活跃度的具体数据,但我们可以通过debian社区的整体活跃度和特点来推断其活跃性。 Debian社区的一般情况: Debian拥有详尽的…

    2026年5月10日
    000
  • Discord.py 交互按钮超时与持久化解决方案

    本教程旨在解决Discord.py中交互按钮在一段时间后出现“This Interaction Failed”错误的问题。我们将深入探讨视图(View)的超时机制,并提供通过正确设置timeout参数以及利用bot.add_view()方法实现按钮持久化的具体方案,确保您的机器人交互功能稳定可靠,即…

    2026年5月10日
    000
  • JavaScript 动态菜单点击高亮效果实现教程

    本教程详细介绍了如何使用 JavaScript 实现动态菜单的点击高亮功能。通过事件委托和状态管理,当用户点击菜单项时,被点击项会高亮显示(绿色),同时其他菜单项恢复默认样式(白色)。这种方法避免了不必要的DOM操作,提高了性能和代码可维护性,确保了无论点击方向如何,功能都能稳定运行。 动态菜单高亮…

    2026年5月10日
    200
  • c++如何实现UDP通信_c++基于UDP的网络通信示例

    UDP通信基于套接字实现,适用于实时性要求高的场景。1. 流程包括创建套接字、绑定地址(接收方)、发送(sendto)与接收(recvfrom)数据、关闭套接字;2. 服务端监听指定端口,接收客户端消息并回传;3. 客户端发送消息至服务端并接收响应;4. 跨平台需处理Winsock初始化与库链接,编…

    2026年5月10日
    000
  • 谷歌浏览器如何截图 谷歌浏览器页面截图技巧

    谷歌浏览器如何截图 谷歌浏览器页面截图技巧谷歌浏览器如何截图 谷歌浏览器页面截图技巧谷歌浏览器如何截图 谷歌浏览器页面截图技巧谷歌浏览器如何截图 谷歌浏览器页面截图技巧

    使用谷歌浏览器的开发者工具截图步骤:1. 按ctrl+shift+i(windows/linux)或cmd+option+i(mac)打开开发者工具。2. 点击右上角三个点,选择”更多工具”,再选择”截图”。3. 选择截取整个页面。推荐的谷歌浏览器扩展…

    2026年5月10日 用户投稿
    100
  • JavaScript函数中插入加载动画(Spinner)的正确方法

    本文旨在解决在JavaScript函数中插入加载动画(Spinner)时遇到的异步问题。通过引入async/await和Promise.all,确保在数据处理完成前后正确显示和隐藏加载动画,提升用户体验。我们将提供两种实现方案,并详细解释其原理和优势。 在Web开发中,当执行耗时操作时,显示加载动画…

    2026年5月10日
    000
  • 使用 Pydantic v2 实现条件性必填字段

    本文介绍了如何在 Pydantic v2 模型中实现条件性必填字段。通过自定义验证器,可以根据模型中其他字段的值来动态地控制某些字段是否为必填项,从而满足 API 交互中数据验证的复杂需求。本文提供了一个具体的示例,展示了如何确保模型中至少有一个字段被赋值。 在 Pydantic v2 中,虽然没有…

    2026年5月10日
    000

发表回复

登录后才能评论
关注微信