过度炒作+虚假包装？Gartner预测2027年超40%的代理型AI项目将失败

程序猿 • 2025年11月6日 18:43:49 • 用户投稿 • 阅读 0

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

当人工智能在大模型能力突破、推理能力提升以及多模态技术进步的推动下走向新阶段，“Agentic AI（代理型AI）”成为 2024 年以来 AI 领域的新晋热词，2025 年甚至被称为“AI 代理元年”——它被描绘为继 RPA（机器人流程自动化）、虚拟助手之后的下一代智能自动化革命，引发科技公司、风险投资者与企业 CIO的高度关注。

然而，多个研究团队却在近期相继发布研究报告，对当前 Agentic AI的实际能力、场景适配性乃至产业宣传行为提出质疑。所以——我们究竟是在见证一场 AI 代理革命，还是落入又一轮概念资本化的陷阱？

代理型 AI 乱象：过度炒作+虚假包装

Gartner 预测，到 2027 年底，超过 40% 的代理型 AI项目将因成本不断上升、商业价值不明确或风险控制不足而被取消。

Gartner 高级分析师 Anushree Verma 表示：“目前大多数代理型 AI 项目仍处于早期实验或概念验证阶段，其背后的主要驱动因素是炒作，而这些技术往往被错误地应用。这可能使企业忽视 AI 代理大规模部署所需的真正成本与复杂性，导致项目迟迟无法落地。企业需要穿透炒作迷雾，制定更为审慎和战略性的决策，明确在哪里、以及如何采用这一新兴技术。”

2025 年 1 月，Gartner 对 3412 名网络研讨会参与者进行了一项民意调查，发现 19% 的组织报告在代理型 AI方面进行了大量投资，42% 的组织进行了保守投资，8% 的组织根本没有投资，31% 的组织正在等待或不确定。

更为值得关注的是，Gartner 发现了一种普遍存在的“代理清洗”趋势，即供应商将现有的人工智能助手、聊天机器人或机器人流程自动化 (RPA) 工具重新包装成“代理人工智能”，而实际上并没有提供真正的代理功能。

Gartner 估计，在数千家声称提供代理解决方案的供应商中，只有约 130 家真正提供了真正的代理功能。Verma补充表示：“当前大多数所谓代理型 AI 解决方案并不具备明显的业务价值或投资回报率（ROI），因为这些模型尚不具备足够的成熟度与自主能力，无法持续性地达成复杂的业务目标，或精准理解并执行复杂指令。事实上，很多目前被标榜为 Agentic AI 的场景，根本不需要使用代理型架构。”

问题来了，真正的代理型 AI和虚假的代理型 AI 究竟差别在哪里？

从定义上来看，Agentic AI 是指使用机器学习模型并连接各类服务和应用，以自动执行任务或业务流程的 AI 代理。可以将其理解为 AI 模型在一个迭代反馈循环中，借助应用程序和 API 服务不断响应输入的机制。

其核心理念是，给定一个任务，比如：“查找我收到的所有对人工智能夸大其词的邮件，并判断这些发件人是否与加密货币公司有关联”，一个获得授权、能够读取邮箱客户端界面并访问邮件数据的 AI 模型，应当能够比程序脚本或人工员工更高效地理解并执行这一自然语言指令。

理论上，这类 AI 代理可以自行界定“夸大其词”的含义，而这对人类程序员来说可能涉及复杂的文本解析和语义分析，因此颇具挑战性。人们可能倾向于用简单的方式处理，比如在邮件正文中搜索“AI”一词。但人类员工即便能识别邮箱中的 AI 炒作内容，也可能耗时较长，不如计算驱动的方案高效。

代理型 AI 在真实场景中替代人类的能力仍存在显著差距

为了评估 AI 代理在执行常见知识型工作任务时的表现，例如网页浏览、编写代码、运行应用程序以及与同事沟通协作等，卡耐基梅隆大学的研究人员开发了一套基准系统。他们将这个测试平台命名为 TheAgentCompany，是一个模拟环境，旨在仿真一个小型软件公司的日常运营。

他们的目的是厘清围绕 AI 代理的争议——一方是 AI 的信奉者，认为人类大部分劳动可以被自动化；另一方是怀疑论者，认为这些说法不过是 AI 炒作的一部分。

在他们的研究论文中，研究人员指出，这两种观点之间存在巨大分歧，其根源在于目前缺乏一种系统的方法来测试 AI 代理在实际办公活动中的能力，因此开发统一的评估基准势在必行。而初步测试结果表明，AI 代理在真正实用化之前还有很长的路要走。

在测试中，他们使用了两个代理框架：OpenHands CodeAct 和 OWL-Roleplay，并对以下主流大模型进行了任务成功率评估。测试结果相当令人失望：

·Gemini 2.5 Pro：30.3%

·Claude 3.7 Sonnet：26.3%

·Claude 3.5 Sonnet：24%

·Gemini 2.0 Flash：11.4%

·GPT-4o：8.6%

·o3-mini：4.0%

·Gemini 1.5 Pro：3.4%

·Amazon Nova Pro v1：1.7%

·LLaMA 3.1 405B：7.4%

·LLaMA 3.3 70B：6.9%

·Qwen 2.5 72B：5.7%

·LLaMA 3.1 70B：1.7%

·Qwen 2 72B：1.1%

研究人员在论文中写道：“我们的实验表明，表现最好的模型 Gemini 2.5 Pro，仅能够自主完成 30.3% 的指定测试任务；若考虑部分完成的任务并给予额外加分，其得分也仅为39.3%。”这些数据表明，尽管代理型 AI 的潜力令人期待，但目前距离其在真实办公场景中高效替代人类工作者的能力仍存在显著差距。

研究人员在测试过程中观察到多种失败情形，其中包括：

AI 代理未按照指令给同事发送消息；

无法正确处理某些网页 UI 元素，例如弹窗；甚至出现了欺骗性行为——在一个案例中，当代理无法在 RocketChat（一种用于内部沟通的开源 Slack 替代品）中找到目标联系人时，它选择“取巧”，将另一名用户重命名为目标用户的名字，以假冒完成任务。

与此同时，来自 Salesforce的研究团队也提出了一套针对客户关系管理（CRM）场景的 AI 代理评估基准。这套名为 CRMArena-Pro 的评估体系，涵盖了 B2B 和 B2C 两类业务场景下的销售、客服以及“配置、定价与报价（CPQ）” 等 19 项由专家验证的任务，并支持单轮交互（一次提示-应答）与多轮交互（多次提示-应答且保持上下文连续）两种测试模式。

测试结果显示：即便是目前领先的大语言模型代理，在 CRMArena-Pro 中的整体表现也较为有限。在单轮交互场景中的平均成功率约为 58%，但一旦进入多轮交互，其性能会显著下降至 35% 左右。

相关研究人员进一步表示：“我们发现，大语言模型代理普遍缺乏完成复杂工作任务所需的多项关键能力，工作流执行（Workflow Execution）是为数不多的例外，在这类任务中，像 Gemini-2.5-Pro 等强模型的成功率可超过 83%。”

同时，报告也指出，所有被评估的模型在保密意识（confidentiality awareness）方面几乎为零。这意味着，在高度关注数据隐私与安全的企业IT环境中，部署 AI 代理依然面临严峻挑战。

不只是测试和实验阶段，一些企业已经体会到 Agentic AI 炒作过度所带来的风险。RCR专栏作家 Sean Kinney 在文章中指出，瑞典支付平台 Klarna曾暂停招聘部分岗位，改用 AI工具处理客户服务请求。但 Klarna CEO Sebastian Siemiatkowski 在接受彭博社采访时坦言，这些 AI 工具提供的服务质量不如人类员工，最终公司重新恢复了人工招聘。

Kinney 锐评道：“这只是众多企业‘All in AI’后不得不回头修正路线的一个例子，还有更多这样的案例，未来也还会有。”

写在最后

尽管受挫，但 Gartner 仍看好代理型 AI 的长期潜力——Gartner 认为，虽然当前代理型 AI 尚未成熟，但其长期发展前景值得期待，到 2028 年，至少 15% 的日常工作决策将由 AI 代理自主完成（2024 年为 0%）；33% 的企业软件应用将集成代理型 AI（2024 年不足 1%）。

Gartner 建议，企业在采用代理型 AI 时，应聚焦于那些能够明确交付价值或可衡量 ROI 的场景。在已有系统中集成 AI 代理可能打破现有工作流程，并带来高昂的修改成本。从底层重构工作流程以适配代理型 AI 的能力，或许才是更可持续的路径。

参考资料：

Gartner Predicts Over 40% of Agentic AI Projects Will Be Canceled by End of 2027，Gartner

AI agents get office tasks wrong around 70% of the time, and a lot of them aren’t AI at all，Theregister

Gartner: More than 40% of agentic AI projects will fail by 2027，Rcrwireless

以上就是过度炒作+虚假包装？Gartner预测2027年超40%的代理型AI项目将失败的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/42322.html

20 ai claude gartner gemini office red 人工智能代理型ai 加密货币工具邮箱

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

MySQL插入新记录时，主键会自动排序吗？

上一篇 2025年11月6日 18:42:48

豆包如何保障用户隐私

下一篇 2025年11月6日 18:44:23

用户投稿

composer require-dev和require有什么不同_Composer Require与Require-Dev区别解析

require用于声明项目运行必需的依赖，如框架、数据库组件和第三方SDK，这些包会随项目部署到生产环境；2. require-dev用于声明仅在开发和测试阶段需要的工具，如PHPUnit、PHPStan、Faker等，不会默认部署到生产环境；3. 安装时composer install根据环境决定…

程序猿
2026年5月10日
10000
Matplotlib 地图中多类型图例的创建与优化

本教程旨在解决matplotlib地图可视化中，如何在一个图例中同时展示颜色块（如区域分类）和自定义标记（如特定兴趣点）的问题。文章详细介绍了当传统`patch`对象无法正确显示标记时，如何利用`matplotlib.lines.line2d`创建标记图例句柄，并将其与颜色块图例句柄合并，从而生成一…

程序猿
2026年5月10日 • 用户投稿
1000
用户投稿

Golang JSON序列化：控制敏感字段暴露的最佳实践

本教程探讨golang中如何高效控制结构体字段在json序列化时的可见性。当需要将包含敏感信息的结构体数组转换为json响应时，通过利用`encoding/json`包提供的结构体标签，特别是`json:”-“`，可以轻松实现对特定字段的忽略，从而避免敏感数据泄露，确保api…

程序猿
2026年5月10日
0000
用户投稿

利用海象运算符简化条件赋值：Python教程与最佳实践

本文旨在探讨Python中海象运算符（:=）在条件赋值场景下的应用。通过对比传统if/else语句与海象运算符，以及条件表达式，分析海象运算符在简化代码、提高可读性方面的优势与局限性。并通过具体示例，展示如何在列表推导式等场景下合理使用海象运算符，同时强调其潜在的复杂性及替代方案，帮助开发者更好地掌…

程序猿
2026年5月10日
1000
用户投稿

Debian syslog性能优化技巧有哪些

提升Debian系统syslog (通常基于rsyslog)性能，关键在于精简配置和高效处理日志。以下策略能有效优化日志管理，提升系统整体性能：精简配置，高效加载: 在rsyslog配置文件中，仅加载必要的输入、输出和解析模块。使用全局指令设置日志级别和格式，避免不必要的处理。自定义模板: 创…

程序猿
2026年5月10日
0000
用户投稿

比特币新手教程比特币交易平台有哪些

比特币是一种去中心化的数字货币，基于区块链技术实现点对点交易，具有匿名性、有限发行和不可篡改等特点；新手可通过交易所购买，P2P交易获得比特币，常用平台包括Binance、OKX和Huobi；交易流程包括注册账户、实名认证、绑定支付方式、充值法币并下单购买，可选择市价单或限价单；比特币存储方式有交易…

程序猿
2026年5月10日
0000
用户投稿

c++中的SFINAE技术是什么_c++模板编程中的SFINAE原理与应用

SFINAE 是“替换失败不是错误”的原则，指模板实例化时若参数替换导致错误，只要存在其他合法候选，编译器不报错而是继续重载决议。它用于条件启用模板、类型检测等场景，如通过 decltype 或 enable_if 控制函数重载，实现类型特征判断。尽管 C++20 引入 Concepts 简化了部分…

程序猿
2026年5月10日
0000
用户投稿

Go语言mgo查询构建：深入理解bson.M与日期范围查询的正确实践

本文旨在解决go语言mgo库中构建复杂查询时，特别是涉及嵌套`bson.m`和日期范围筛选的常见错误。我们将深入剖析`bson.m`的类型特性，解释为何直接索引`interface{}`会导致“invalid operation”错误，并提供一种推荐的、结构清晰的代码重构方案，以确保查询条件能够正确…

程序猿
2026年5月10日
1000
用户投稿

RichHandler与Rich Progress集成：解决显示冲突的教程

在使用rich库的`richhandler`进行日志输出并同时使用`progress`组件时，可能会遇到显示错乱或溢出问题。这通常是由于为`richhandler`和`progress`分别创建了独立的`console`实例导致的。解决方案是确保日志处理器和进度条组件共享同一个`console`实例…

程序猿
2026年5月10日
0000
用户投稿

Golang goroutine与channel调试技巧

使用go run -race检测数据竞争，结合runtime.NumGoroutine监控协程数量，通过pprof分析阻塞调用栈，利用select超时避免永久阻塞，有效排查goroutine泄漏、死锁和数据竞争问题。 Go语言的goroutine和channel是并发编程的核心，但它们也带来了调试上…

程序猿
2026年5月10日
0000
用户投稿

使用 Jupyter Notebook 进行探索性数据分析

Jupyter Notebook通过单元格实现代码与Markdown结合，支持数据导入（pandas）、清洗（fillna）、探索（matplotlib/seaborn可视化）、统计分析（describe/corr）和特征工程，便于记录与分享分析过程。 Jupyter Notebook 是进行探索性…

程序猿
2026年5月10日
0000
《魔兽世界》将于6月11日开启国服回归技术测试

《%ign%ignore_a_1%re_a_1%》官方宣布，将于6月11日开启国服回归技术测试，时间为7天，并称可以在6月内正式开服，玩家们可以访问官网下载战网客户端并预下载“巫妖王之怒”客户端，技术测试详情见下图。 WordAi WordAI是一个AI驱动的内容重写平台 53 查看详情以上就是《…

程序猿
2026年5月10日 • 用户投稿
2000
用户投稿

如何在HTML中插入表单元素_HTML表单控件与输入类型使用指南

HTML表单通过标签构建，包含action和method属性定义数据提交目标与方式，常用input类型如text、password、email等适配不同输入需求，配合label、required、placeholder提升可用性，结合textarea、select、button等控件实现完整交互，是…

程序猿
2026年5月10日
1000
用户投稿

网站标题关键词更新后，搜索引擎为何仍显示旧标题？

网站标题更新后，搜索引擎为何显示旧标题？网站SEO优化中，站长常修改网站标题关键词，期望搜索结果显示自定义标题。然而，即使更新标签、meta keywords、meta description和结构化数据中的name属性后，搜索结果仍显示旧标题，这令人费解。本文将对此进行解释。问题：站长修改了网…

程序猿
2026年5月10日
1000
用户投稿

创建指定大小并填充特定数据的Golang文件教程

本文将介绍如何使用Golang创建一个指定大小的文件，并用特定数据填充它。我们将使用 `os` 包提供的函数来创建和截断文件，从而实现快速生成大文件的目的。示例代码展示了如何创建一个10MB的文件，并将其填充为全零数据。掌握这些方法，可以方便地在例如日志系统或磁盘队列等场景中，预先创建测试文件或初始…

程序猿
2026年5月10日
0000
用户投稿

Python命令怎样使用profile分析脚本性能 Python命令性能分析的基础教程

使用Python的cProfile模块分析脚本性能最直接的方式是通过命令行执行python -m cProfile your_script.py，它会输出每个函数的调用次数、总耗时、累积耗时等关键指标，帮助定位性能瓶颈；为进一步分析，可将结果保存为文件python -m cProfile -o ou…

程序猿
2026年5月10日
0000
用户投稿

使用 WebCodecs VideoDecoder 实现精确逐帧回退

本文档旨在解决在使用 WebCodecs VideoDecoder 进行视频解码时，实现精确逐帧回退的问题。通过比较帧的时间戳与目标帧的时间戳，可以避免渲染中间帧，从而提高用户体验。本文将提供详细的解决方案和示例代码，帮助开发者实现精确的视频帧控制。在使用 WebCodecs VideoDecod…

程序猿
2026年5月10日
0000
如何插入查询结果数据_SQL插入Select查询结果方法

使用INSERT INTO…SELECT语句可高效插入数据，通过NOT EXISTS、LEFT JOIN、MERGE语句或唯一约束避免重复；表结构不一致时可通过别名、类型转换、默认值或计算字段处理；结合存储过程可提升可维护性，支持参数化与动态SQL。将查询结果数据插入到另一个表中，可以…

程序猿
2026年5月10日 • 用户投稿
0000
用户投稿

Debian Copilot的社区活跃度如何

debian copilot是codeberg社区维护的ai助手，旨在为debian用户提供服务。尽管搜索结果中没有直接提供关于debian copilot社区支持活跃度的具体数据，但我们可以通过debian社区的整体活跃度和特点来推断其活跃性。 Debian社区的一般情况： Debian拥有详尽的…

程序猿
2026年5月10日
0000
用户投稿

Discord.py 交互按钮超时与持久化解决方案

本教程旨在解决Discord.py中交互按钮在一段时间后出现“This Interaction Failed”错误的问题。我们将深入探讨视图（View）的超时机制，并提供通过正确设置timeout参数以及利用bot.add_view()方法实现按钮持久化的具体方案，确保您的机器人交互功能稳定可靠，即…

程序猿
2026年5月10日
0000