AI 也邪修!Qwen3 改 Bug 测试直接搜 GitHub,太拟人了

大模型也开始懂得利用信息差了。

Qwen3 在基准测试中竟然玩起了“取巧”操作。

AI 也邪修!Qwen3 改 Bug 测试直接搜 GitHub,太拟人了

FAIR 研究员发现,Qwen3 在参与 SWE-Bench Verified 测试时,并没有按常规思路去修复 bug,而是另辟蹊径,玩起了信息检索的套路。

AI 也邪修!Qwen3 改 Bug 测试直接搜 GitHub,太拟人了

它不深入分析代码逻辑,也不费力定位漏洞根源,反而直接冲进 GitHub,搜索任务中提到的 issue 编号,精准挖出了前人提交过的修复方案。

不得不说,会搜代码,才是真实程序员的日常操作。而 Qwen3,简直是程序员本员。

要知道,SWE-Bench Verified 原本是用来检验模型是否具备真实编码修复能力的权威基准,堪称编程界的“资格考试”。

它的设计初衷是:给模型分配真实开源项目中的 bug 修复任务,比如修复功能异常、补全缺失模块等,要求模型能理解现有代码、准确找出问题,并生成可运行的修复代码。

这本意是测试模型从零开始解决问题的能力,但 Qwen3 显然没走这条“正道”。

FAIR 团队在追踪其行为轨迹时发现,Qwen3 拿到任务后,第一步不是读代码,而是调用工具查询 GitHub 的提交记录。

AI 也邪修!Qwen3 改 Bug 测试直接搜 GitHub,太拟人了

具体操作如下:

先切换到

/workspace/django_django_4.1

目录;

然后执行命令:

git log --oneline --grep="33628" --all

其中,

git log

用于查看提交历史,

--oneline

让输出更简洁,

--grep

根据关键词(这里是 issue 编号 33628)筛选提交记录,

--all

则覆盖所有分支。

最终命令以退出码 0 成功执行,说明检索成功。

就这样,Qwen3 轻松“借鉴”了已有的修复方案,连代码都不用写。(这难道不是另一种聪明?)

其实,Qwen3 并不孤单。研究者还发现,Claude 4 Sonnet 也有类似行为。

AI 也邪修!Qwen3 改 Bug 测试直接搜 GitHub,太拟人了

不过,模型能钻这个空子,测试本身的设计缺陷也难辞其咎。

问题出在 SWE-Bench Verified 的数据构建方式——它没有过滤掉未来的代码提交。

换句话说,测试使用的项目数据包含了 bug 被修复后的提交记录,相当于把考题和标准答案一起打包给了考生,还没上锁。

理想情况下,测试应只提供 bug 存在时的项目状态,让模型独立解题。

但现实是,这些“答案”就明晃晃地躺在仓库里。只要用任务中的 issue 编号作为关键词,就能轻松搜到现成的修复方案。

看来,不只是人类知道“搜答案”比“解题”快,大模型也学会了这一招。(Doge)

虽然按规则来说,这种行为算“作弊”,但也有网友表示:只要结果正确,利用规则漏洞也是一种能力。

AI 也邪修!Qwen3 改 Bug 测试直接搜 GitHub,太拟人了

那么问题来了:你觉得 Qwen3 这是作弊,还是足够聪明?

参考链接:

[ 1 ] https://www.php.cn/link/7b75a9a9404959d96c63d1f61ec75550

[ 2 ] https://www.php.cn/link/b41ceb1791257df1e55b59ec7ad75533

[ 3 ] https://www.php.cn/link/0460c5723b287202cf850b7ae996f03e

一键三连「点赞」「转发」「小心心」

欢迎在评论区分享你的看法!

— 完 —

专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~

进群后,你将直接获得:

最新最专业的 AI 产品信息及分析

不定期发放的热门产品内测码

内部专属内容与专业讨论

点亮星标

科技前沿进展每日见

以上就是AI 也邪修!Qwen3 改 Bug 测试直接搜 GitHub,太拟人了的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/75562.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月14日 10:19:57
下一篇 2025年11月14日 10:56:42

相关推荐

  • 构建实时Gmail邮件通知的Web应用集成指南

    本文详细阐述了如何在Web应用中实现Gmail新邮件的实时通知功能。针对传统IMAP轮询的局限性,重点推荐并指导使用Gmail API结合Google Cloud Pub/Sub实现高效、低延迟的推送通知机制,并涵盖了API集成、Webhook配置及数据处理等关键步骤,为开发者提供一套专业的解决方案…

    2025年12月10日
    000
  • 实现Web应用中Gmail新邮件的实时通知

    本教程详细阐述了如何在Web应用程序中实现Gmail新邮件的实时通知功能。针对IMAP的局限性,文章重点介绍了利用Google Gmail API结合Google Cloud Pub/Sub的推送通知机制,为开发者提供了一种高效、可靠的Webhook式解决方案,以确保Web应用能即时响应Gmail账…

    2025年12月10日
    000
  • 文章标题:解决PHP循环生成表单时验证错误信息与特定表单实例关联的问题

    在PHP开发中,经常会遇到需要循环生成多个表单的情况,例如图片上传、商品列表编辑等。当这些表单需要进行验证时,如果验证失败,如何将错误信息准确地显示在对应的表单实例顶部,而不是全部表单都显示错误信息,是一个需要解决的问题。本文将提供一种基于表单唯一标识的解决方案。 问题分析 如摘要所述,核心问题在于…

    2025年12月10日
    000
  • PHP表单循环生成中的验证错误信息与特定表单实例关联

    本文将介绍如何在循环生成的多个PHP表单中,将验证错误信息准确地关联到触发错误的特定表单实例。如摘要中所述,核心思想是在验证时,通过比较隐藏字段(例如文件名)与数据库中的对应值,来确定错误信息应该显示在哪个表单上。 解决方案 当你在循环中创建多个表单时,每个表单都有自己的状态和数据。当一个表单提交并…

    2025年12月10日
    000
  • PHP怎样处理MQTT协议消息 MQTT消息处理技巧分享

    php处理mqtt协议消息需借助第三方库并理解其机制。首先选择合适的mqtt客户端库,如php-mqtt/client或bluerhinos/php-mqtt,并通过composer安装;其次配置broker连接信息(地址、端口、用户名、密码)以建立连接;接着订阅所需主题,并设置回调函数接收消息;然…

    2025年12月10日 好文分享
    000
  • PHP与PostgreSQL交互时如何实现批量更新的详细教程?

    1.使用update配合case when适用于中小规模数据,通过构造多条件update语句减少请求次数;2.使用临时表+join更新适合大批量或结构复杂数据,通过创建临时表插入数据后与主表关联更新;3.始终使用事务控制确保操作一致性。在php中实现时,动态拼接case内容或生成insert语句导入…

    2025年12月10日 好文分享
    000
  • PHP 生成多个表单:验证错误信息与对应表单字段无法正确关联

    本文旨在解决在PHP中使用循环生成多个表单时,如何将验证错误信息准确地显示在对应的表单实例上。通过利用隐藏字段来识别表单,并在显示错误信息时进行条件判断,确保错误信息与正确的表单关联。 本文将解决在PHP中使用循环生成多个表单时,如何将验证错误信息准确地显示在对应的表单实例上。关键在于利用隐藏字段唯…

    2025年12月10日
    000
  • PHP怎么实现文件批量解压 文件批量解压的4个操作技巧

    要实现php批量解压文件,首先需扫描目录获取所有压缩文件,接着根据文件类型选择合适的解压方法(如ziparchive类或shell命令),并在解压过程中处理异常;其次为避免文件覆盖,可创建独立子目录或添加时间戳;对于大型文件,应增加内存限制、设置超时时间或使用系统命令行工具;安全性方面,需验证文件类…

    2025年12月10日 好文分享
    000
  • PHP怎样获取服务器信息 PHP获取服务器信息的5个函数

    要获取php服务器信息,可通过php内置函数实现。1. php_uname() 获取操作系统信息;2. phpversion() 获取php版本;3. getenv() 读取环境变量;4. $_server 获取服务器和请求信息;5. phpinfo() 输出完整配置信息,但生产环境应禁用。安全使用…

    2025年12月10日 好文分享
    000
  • PHP虚拟环境:Docker集成指南

    使用docker集成php虚拟环境需遵循以下步骤:1.编写dockerfile,选择合适的基础镜像(如php:7.4-fpm-alpine),安装依赖,复制源代码,设置工作目录,暴露端口,配置php-fpm并可选安装composer;2.配置docker-compose.yml文件,定义php-fp…

    2025年12月10日 好文分享
    000
  • PHP中的GraphQL:如何构建灵活的API查询

    graphql 在 php 中通过精确查询避免了数据过度获取或不足,提升效率与性能。1.选择库如 webonyx/graphql-php;2.定义类型系统 schema 描述数据模型;3.创建接收并执行查询的 php 脚本;4.处理 mutations 实现数据修改;5.利用错误处理和验证机制保障稳…

    2025年12月10日 好文分享
    000
  • PHP怎么实现数据自动清理 数据自动清理的3种实现方案

    php中实现数据自动清理的核心方法有三种:1.使用cron定时任务,2.php脚本模拟定时任务,3.借助消息队列。针对问题,首选cron实现方式,通过编写php清理脚本并配置cron任务,可定期执行清理操作;其次,php脚本结合sleep函数可在不支持cron的环境下运行,但可靠性较低;最后,消息队…

    2025年12月10日 好文分享
    000
  • PHP怎样解析LZMA压缩包 LZMA文件解压实战演示

    php解析lzma压缩包需借助扩展或外部程序,1.使用lzma扩展:检查是否安装,若未安装则通过系统包管理器安装并重启服务,使用lzma_decode函数解压;2.调用命令行工具:使用shell_exec执行xz命令实现解压,注意参数转义防止命令注入;若遇“函数未定义”错误,应检查扩展加载状态及配置…

    2025年12月10日 好文分享
    000
  • PHP怎么转换时间格式 PHP时间格式转换的6种写法

    php时间格式转换可通过date()函数、strtotime()函数及datetime类实现。1.使用date()和strtotime()组合,先用strtotime()将日期字符串转为时间戳,再通过date()格式化输出;2.直接使用date()格式化当前时间;3.使用datetime类处理复杂日…

    2025年12月10日 好文分享
    000
  • 处理PHPMyAdmin操作中的异常情况和紧急恢复方案

    1.处理phpmyadmin异常与恢复的核心在于预防、监控、诊断和恢复四方面。2.预防包括操作前备份、定期自动备份及异地存储,加固phpmyadmin安全配置。3.异常发生时需快速诊断问题来源,查看错误代码、服务状态、日志和配置文件。4.紧急恢复优先保障数据安全,停止写入并复制损坏数据,首选基于备份…

    2025年12月10日 好文分享
    000
  • PHP怎么实现数据增量更新 增量数据同步的3种实现方案

    php实现数据增量更新主要有三种方案:1.基于时间戳或版本号,2.基于触发器,3.基于消息队列。第一种方案通过update_time或version字段追踪变化,实现简单但无法同步删除操作;第二种方案利用数据库触发器记录变化到日志表,可追踪所有变更但实现复杂且影响性能;第三种方案通过消息队列异步传输…

    2025年12月10日 好文分享
    000
  • Braintree php回调接口配置 phpBraintree支付回调步骤详解

    配置braintree php回调接口,首先需在braintree后台设置webhook url并确保其公网可访问;其次编写php脚本接收post请求并通过sdk验证签名合法性;接着解析数据并根据事件类型处理业务逻辑;为保障安全性,需使用hmac-sha256算法验证签名;常见问题包括url配置错误…

    2025年12月10日 好文分享
    000
  • 解决PHPCMS安装过程中数据库连接失败的问题

    数据库连接失败的解决方法:1.核对数据库配置信息是否正确,包括服务器地址、用户名、密码、数据库名和端口;2.检查mysql/mariadb服务是否正常运行;3.确认网络连接和防火墙设置是否允许访问数据库端口;4.验证数据库用户是否有从web服务器ip连接的权限;5.确保php环境已安装并启用了mys…

    2025年12月10日 好文分享
    000
  • PHP与MongoDB交互时如何处理索引优化的处理方法?

    索引优化在php与mongodb交互中至关重要。1. 理解索引作用及创建时机,频繁查询、排序、聚合或联合查询字段应建索引,如对经常按邮箱查找的用户集合建立email索引或(status, email)复合索引;2. 避免过度索引,定期用db.collection.stats()和explain()检…

    2025年12月10日 好文分享
    000
  • PHP如何实现文件批量重命名 PHP文件批量重命名方法详解

    使用php批量重命名文件的核心方法是利用glob()函数获取文件列表,再通过rename()函数逐一修改文件名。1.首先定义文件目录并获取指定格式的文件列表;2.使用循环遍历文件并根据规则生成新文件名;3.调用rename()函数完成重命名操作。处理文件名冲突的方法包括:1.添加时间戳或随机数作为唯…

    2025年12月10日 好文分享
    000

发表回复

登录后才能评论
关注微信