登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题

登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

这篇论文的作者均来自伊利诺伊大学香槟分校(uiuc)张令明老师团队,包括:steven xia,四年级博士生,研究方向是基于 ai 大模型的自动代码修复;邓茵琳,四年级博士生,研究方向是基于 ai 大模型的代码生成;soren dunn,科研实习生,目前为 uiuc 大三学生。张令明老师现任 uiuc 计算机系副教授,主要从事软件工程、机器学习、代码大模型的相关研究。

更多详细信息请见张老师的个人主页:https://lingming.cs.illinois.edu/

自从 Devin(首个全自动 AI 软件工程师)提出以来,针对软件工程的 AI Agent 的设计成为研究的焦点,越来越多基于 Agent 的 AI 自动软件工程师被提出,并在 SWE-bench 数据集上取得了不俗的表现、自动修复了许多真实的 GitHub issue。

然而,复杂的 Agent 系统会带来额外的开销和不确定性,我们真的需要使用如此复杂的 Agent 来解决 GitHub issue 吗?不依赖 Agent 的解决方案能接近它们的性能吗?

从这两个问题出发,伊利诺伊大学香槟分校(UIUC)张令明老师团队提出了 OpenAutoCoder-Agentless,一个简单高效并且完全开源的无 Agent 方案,仅需 $0.34 就能解决一个真实的 GitHub issue。Agentless 在短短几天内在 GitHub 上已经吸引了超过 300 GitHub Star,并登上了 DAIR.AI 每周最热 ML 论文榜单前三。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题

论文:AGENTLESS : Demystifying LLM-based Software Engineering Agents

论文地址:https://huggingface.co/papers/2407.01489

开源代码:https://github.com/OpenAutoCoder/Agentless

AWS 研究科学家 Leo Boytsov 表示:“Agentless 框架表现优异,超过所有开源 Agent 解决方案,几乎达到 SWE Bench Lite 最高水平(27%)。而且,它以显著更低的成本击败了所有开源方案。该框架采用分层查询方法(通过向 LLM 提问来查找文件、类、函数等)以确定补丁位置。虽然利用 LLM,但不允许 LLM 做出规划决策。”

登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题

Agentless 是一种自动解决软件开发问题的方法,它使用简单的两阶段方法进行定位和修复,以修复代码库中的 bug。在定位阶段,Agentless 以分层方式来逐步缩小到可疑的文件、类 / 函数和具体的编辑位置。对于修复,它使用简单的 diff 格式(参考自开源工具 Aider)来生成多个候选补丁,并对其进行过滤和排序。

登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题

研究者将 Agentless 与现有的 AI Software Agent 进行了比较,其中包括最先进的开源和商业 / 闭源项目。令人惊讶的是,Agentless 可以以更低的成本超越所有现有的开源 Software Agent!Agentless 解决了 27.33% 的问题,是开源方案中最高的,并且解决每个问题平均仅需 $0.29,在所有问题上(包括能解决和未解决的)平均只需要约 $0.34。

登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题

不仅如此,Agentless 还有改进的潜力。在考虑所有生成的补丁时,Agentless 可以解决 41% 的问题,这个上限表明补丁排序和选择阶段有显著的改进空间。此外,Agentless 能够解决一些即使是最好的商业工具(Alibaba Lingma Agent)也无法解决的独特问题,这表明它可以作为现有工具的补充。

新CG儿 新CG儿

数字视觉分享平台 | AE模板_视频素材

新CG儿 412 查看详情 新CG儿

登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题

对 SWE-bench Lite 数据集的分析

研究者还对 SWE-bench Lite 数据集进行了人工检查和详细分析。

研究发现,SWE-bench Lite 数据集中,有 4.3% 的问题在问题描述中直接给出了完整的答案,也就是正确的修复补丁。而另外 10% 的问题描述了正确解决方案的确切步骤。这表明,SWE-bench Lite 中的某些问题可能更容易解决。

此外,研究团队观察到有 4.3% 的问题在问题描述中包含了用户提议的解决方案或者步骤,但这些方案与开发人员的真实补丁并不一致。这进一步揭示了该基准测试的潜在问题,因为这些误导性解决方案可能导致 AI 工具仅通过遵循问题描述来生成不正确的解决方案。

在问题描述质量方面,研究者观察到,虽然 SWE-bench Lite 中大部分的任务都包含了足够的信息,并且许多任务还提供了失败示例来复现错误,但是仍有 9.3% 的问题没有包含足够的信息。例如需要实现一个新的函数或者添加一个错误信息,但是特定的函数名或者特定的错误信息字符串并没有在问题描述中给出。这意味着即使正确实现了底层功能,如果函数名或错误信息字符串不完全匹配,测试也会失败。

登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题

普林斯顿大学的研究人员,同时也是 SWE-Bench 的作者之一,Ofir Press 确认了他们的发现:“Agentless 对 SWE-bench Lite 进行了不错的手动分析。他们认为 Lite 上的理论最高得分可能是 90.7%。我觉得实际的上限可能会更低(大约 80%)。一些问题的信息不足,另一些问题的测试过于严格。”

登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题

SWE-bench Lite-S:经过过滤的严格问题子集

针对这些问题,研究者提出了一个严格的问题子集 SWE-bench Lite-S(包含 252 个问题)。具体来说,从 SWE-bench Lite(包含 300 个问题)中排除了那些在问题描述中包含确切补丁、误导性解决方案或未提供足够信息的问题。这样可以去除不合理的问题,并使基准测试的难度水平标准化。与原始的 SWE-bench Lite 相比,过滤后的基准测试更准确地反映了自动软件开发工具的真实能力。

结语

尽管基于 Agent 的软件开发非常有前景,作者们认为技术和研究社区是时候停下来思考其关键设计与评估方法,而不是急于发布更多的 Agent。研究者希望 Agentless 可以帮助重置未来软件工程 Agent 的基线和方向。

以上就是登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/792357.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月26日 14:47:41
下一篇 2025年11月26日 14:48:05

相关推荐

  • 普通人如何提前埋伏到即将暴涨的山寨币

    1.追踪聪明资金动向,关注巨鲸账户对低市值新项目的持续小额买入;2.分析链上数据,通过持有人数、活跃地址数及交易量等指标判断项目真实基本面;3.捕捉热门叙事趋势,结合行业领袖观点与社区热度提前布局新兴概念;4.深度研究项目基本面,评估价值主张、团队背景、代币模型及投资机构背书。通过综合运用Arkha…

    2025年12月8日
    000
  • 以太坊与阻力位的博弈:区间突破能否点燃山寨季?

    以太坊正处于一个至关重要的转折时刻,潜在的区间突破正在酝酿。它是否能够冲破阻力,点燃山寨币行情?还是再次陷入震荡调整? 如同一位技艺高超的舞者,以太坊正与关键阻力展开一场微妙的“较量”。ETH价格目前维持在 2,500 美元附近,显示出一定支撑力量,但市场仍密切关注:它是否能成功跳出当前震荡格局,带…

    2025年12月8日
    000
  • 稳定币官网入口 稳定币入口地址2025最新

    本文提供了2025年主流稳定币的官方入口及获取平台。1. USDT官网为Tether.to,可在币安、OKX等平台交易;2. USDC由Circle发行,官网可查审计报告,支持在币安、OKX等平台流通;3. DAI为去中心化稳定币,相关信息可通过MakerDAO官网获取,在币安、OKX等平台交易。 …

    2025年12月8日
    000
  • 币圈土狗币能买吗?如何识别诈骗项目?

    币圈中的“土狗币”通常指那些市值极低、项目信息不透明、技术基础薄弱甚至没有实际应用场景的新发行加密货币。这些代币往往伴随高风险的叙事而出现。 1.  土狗币项目普遍缺乏实质性技术支撑和成熟的应用方案。 很多时候,它们仅仅是一个在现有区块链上发行的代币,没有独特的技术创新。 2.  这类代币的流动性非…

    2025年12月8日
    000
  • 币圈AMA是什么?怎么判断项目真实性?

    币圈中的ama,是ask me anything的缩写,直译过来是“问我任何问题”。这是一种项目方与社区成员进行互动交流的形式。项目团队通常会在特定的平台,例如telegram群组、discord服务器、或者通过twitter spaces进行直播,向参与者开放提问。社区成员可以借此机会直接向项目的…

    2025年12月8日
    000
  • 比特币是如何运作的?白话讲解其背后机制

    比特币是一种去中心化的数字账本系统,其核心通过区块链技术实现;1.它由全球节点共同维护,所有交易公开透明且不可篡改;2.交易先被广播并验证,再被打包进区块,形成链式结构;3.矿工通过算力竞争解决数学难题,获得记账权及比特币奖励;4.其安全性依赖于工作量证明机制和全网算力分布,防止51%攻击。 一、比…

    2025年12月8日
    000
  • 深度挖掘”被低估的3大本土概念币” 翻倍在即

    在数字资产的广阔海洋中,发掘那些价值尚未被市场充分认识的“璞玉”是许多参与者的目标。本文将深入探讨三个源于本土智慧、具备深厚技术底蕴且当前市值可能被低估的概念项目。我们将详细阐述这些项目的核心技术、生态应用以及它们为何具备显著的增长潜力,旨在为读者提供一个清晰的分析框架。 2025主流加密货币交易所…

    2025年12月8日
    000
  • USDT和USDC哪个更安全?2025年稳定币市值排名

    USDT在流动性方面占优,USDC在安全与合规上更强。1.USDT储备含商业票据透明度较低,而USDC储备为现金及美债且经审计更透明;2.USDC受美国严格监管合规性更高;3.USDT因先发优势市场接受度和流动性更广。预测2025年稳定币市值排名依次为:1.USDT因网络效应稳固第一;2.USDC借…

    2025年12月8日
    000
  • 稳定币龙头股排名前十名

    稳定币作为加密世界的基石,为市场提供了重要的价值锚定和避险工具。本文将为您盘点当前市值和影响力排名前十的稳定币项目,帮助您了解它们各自的特点、优势以及主要的交易平台。 2025年稳定币交易所: 欧易okx:   币安binance:   火币htx: 稳定币项目综合实力排名 1. Tether (U…

    2025年12月8日
    000
  • 怎么免费获得ETH_ETH免费获取方法大全

    【权威推荐】2025主流数字货币交易平台合集 Binance币安 官网直达: 安卓安装包下载: 欧易OKX ️ 官网直达: 安卓安装包下载: Huobi火币️ 官网直达: 安卓安装包下载: 怎么免费获得ETH?ETH免费获取方法大全 以太坊(ETH)作为主流智能合约平台的核心资产,是大量链上活动的通…

    2025年12月8日
    000
  • 狗狗币空投怎么弄_狗狗币空投指南大全

    【权威推荐】2025主流数字货币交易平台合集 Binance币安 官网直达: 安卓安装包下载: 欧易OKX ️ 官网直达: 安卓安装包下载: Huobi火币️ 官网直达: 安卓安装包下载: 狗狗币空投怎么弄?DOGE空投获取全流程指南 狗狗币(DOGE)虽然诞生较早且没有官方基金会支持,但近年来随着…

    2025年12月8日
    000
  • ETH免费获取途径大全_一文教你如何白嫖ETH

    【权威推荐】2025主流数字货币交易平台合集 Binance币安 官网直达: 安卓安装包下载: 欧易OKX ️ 官网直达: 安卓安装包下载: Huobi火币️ 官网直达: 安卓安装包下载: ETH免费获取途径大全:一文教你如何白嫖以太坊 以太坊(ETH)作为智能合约平台的核心资产,在链上交互、NFT…

    2025年12月8日
    000
  • 2025年最值得投资的5大稳定币(附最新数据)

    2025年最具投资价值的五大稳定币为Tether(USDT)、USD Coin(USDC)、Dai(DAI)、First Digital USD(FDUSD)和TrueUSD(TUSD)。 随着加密市场波动性持续,稳定币成为投资者资产保值和交易的关键工具。本文将深入分析2025年最具投资价值的五大稳…

    2025年12月8日
    000
  • 代币化股票成加密新宠,山寨币未来前景如何?

    「是时候迈出比特币和 meme 币的阶段了,市场正在转向 7×24 小时的链上交易,以及真正有实际效用的现实资产。」在正式宣布推出代币化股票交易后,robinhood ceo vlad tenev 的这句话,描绘了当前代币化股票的热潮,也揭示了加密市场正经历深刻变革。 随着 Robinhood、Kr…

    2025年12月8日
    000
  • 币安领投的Bedrock(BR)币是什么?BR币怎么买及价格预测

    目录 Bedrock(BR)是什么?Bedrock 项目背景Bedrock 的运作原理BR币是什么?BR代币经济学BR币价格走势分析BR币价格预测(2025–2030)1、PricePrediction.net 2、DigitalCoinPrice3、CoinDataFlow4、ExolixBedr…

    2025年12月8日 好文分享
    000
  • Ripple申请美国银行牌照加入加密合规化浪潮

    在国会推进法案将稳定币发行商纳入国家银行监管机构监管后,Ripple跟随Circle寻求获得自己的银行牌照 加密货币公司Ripple Labs正在申请美国银行牌照,此举效仿了稳定币发行商Circle Internet Group的类似举措,加密货币公司正寻求接受监管以深化与传统金融的联系。 Ripp…

    2025年12月8日
    000
  • HaasOnline Python进阶玩法:自定义AI交易脚本

    本文将详细阐述在HaasOnline平台上如何运用Python进行AI交易脚本的自定义开发。文章会引导您从环境准备开始,逐步讲解自定义脚本的核心步骤,包括理解脚本结构、定义交易逻辑、编写代码、回测优化以及最终部署。同时,本文还会介绍如何利用GitHub上的开源策略库,来加速您的学习与开发进程,帮助您…

    2025年12月8日
    000
  • 什么是 AIN Coin?AIN代币经济学、功能介绍

    在快速发展的区块链技术世界中,构建复杂的去中心化应用程序传统上需要广泛的编码知识和技术专长。无限基础作为一项开创性的解决方案,通过创新的去中心化代理集成开发环境(ide)实现了区块链开发的民主化。本指南全面探讨了无限基础及其本地ain代币如何彻底改变我们创建、部署和互动区块链应用程序的方式。 无论您…

    2025年12月8日 好文分享
    000
  • 稳定币有哪些 稳定币是指哪些

    稳定币是一种价值与特定资产(通常是美元)挂钩的加密货币,旨在提供稳定的价值储存和交易媒介。其主要类型包括:1. 法币抵押型稳定币(如USDT、USDC),通过等值法币储备维持稳定;2. 倾向于超额抵押加密资产的稳定币(如DAI),以缓冲价格波动风险;3. 算法稳定币(如UST),依赖智能合约调节供应…

    好文分享 2025年12月8日
    000
  • 稳定币十大龙头公司 稳定币龙头股排名前十名

    稳定币龙头项目排名前四为USDT、USDC、DAI和FDUSD。1. USDT由Tether发行,是市值最高且流动性最强的稳定币,尽管储备透明度曾受质疑,但其市场地位稳固;2. USDC由Circle发行,以合规性和透明度著称,深受机构投资者信赖;3. DAI由MakerDAO发行,是去中心化稳定币…

    2025年12月8日
    000

发表回复

登录后才能评论
关注微信