众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸

模型排行榜哪家强?还看LLM竞技场~

截至此刻,已有共计90名LLM加入战斗,用户总投票数超过了77万。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸图片

然而,在网友们吃瓜调侃新模型冲榜、老模型丧失尊严的同时,

人家竞技场背后的组织LMSYS,已经悄悄完成了成果转化:从实战中诞生的最有说服力的基准测试——Arena-Hard。

众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸图片

而Arena-Hard所展现出的四项优势,也正是当前的LLM基准测试最需要的:

-可分离性(87.4%)明显优于mt-bench(22.6%);

-与Chatbot Arena的排名最相近,达到89.1%;

-运行速度快,价格便宜(25美元)

-频繁更新实时数据

中译中一下就是,首先这个大模型的考试要有区分度,不能让学渣也考到90分;

其次,考试的题目应该更贴合实际,并且打分的时候要严格对齐人类偏好;

最后一定不能泄题,所以测试数据要经常更新,保证考试的公平;

——后两项要求对于LLM竞技场来说,简直像是量身定做。

我们来看一下新基准测试的效果:

众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸图片

上图中将Arena Hard v0.1,与之前的SOTA基准测试MT Bench进行了比较。

我们可以发现,Arena Hard v0.1与MT Bench相比,具有更强的可分离性(从22.6%飙升到了87.4%),并且置信区间也更窄。

另外,看下这个排名,与下面最新的LLM竞技场排行榜是基本一致的:

众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸图片

这说明Arena Hard的评测非常接近人类的偏好(89.1%)。

——Arena Hard也算是开辟了众包的新玩法:

网友获得了免费的体验,官方平台获得了最有影响力的排行榜,以及新鲜的、高质量的数据——没有人受伤的世界完成了。

众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸

给大模型出题

下面看下如何构建这个基准测试。

简单来说,就是怎么从竞技场的20万个用户提示(问题)中,挑出来一些比较好的。

这个「好」体现在两方面:多样性和复杂性。下图展示了Arena-Hard的工作流:

众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸图片

总结一波:首先对所有提示进行分类(这里分了4000多个主题),然后人为制定一些标准,对每个提示进行打分,同一类别的提示算平均分。

得分高的类别可以认为复杂性(或者质量)高——也就是Arena-Hard中「Hard」的含义。

选取前250个得分最高的类别(250保证了多样性),每个类别随机抽2位幸运提示,组成最终的基准测试集(500 prompts)。

下面详细展开:

多样性

研究人员首先使用OpenAI的text-embedding-3-small转换每个提示,使用UMAP减少维度,并使用基于分层的聚类算法(HDBSCAN)来识别聚类,然后使用GPT-4-turbo进行汇总。

众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸

复杂性

通过下表的七个关键标准来选择高质量的用户查询:

众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸图片

1.提示是否要求提供特定的输出?

2.是否涵盖一个或多个特定领域?

3.是否具有多个级别的推理、组件或变量?

4.是否直接让AI展示解决问题的能力?

INFINITE ALBUM INFINITE ALBUM

面向游戏玩家的生成式AI音乐

INFINITE ALBUM 144 查看详情 INFINITE ALBUM

5.是否涉及一定程度的创造力?

6.是否要求响应的技术准确性?

7.是否与实际应用相关?

对于每个提示,使用LLM(GPT-3.5-Turbo、GPT-4-Turbo)标注其满足了多少个标准(打分0到7),然后,计算每组提示(聚类)的平均分数。

下图展示了部分聚类的平均分排序:

众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸图片

我们可以观察到,得分较高的聚类通常是比较有挑战性的主题(比如游戏开发、数学证明),而分数较低的聚类则属于琐碎或模棱两可的问题。

有了这个复杂性,就可以拉开学霸与学渣之间的差距,我们看下面的实验结果:

众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸图片

在上面的3个比较中,假设GPT-4比Llama2-70b强、Claude的大杯比中杯强,Mistral-Large比Mixtral强,

我们可以看到,随着(复杂性)分数的增加,更强的模型的胜率也在提高——学霸获得区分、学渣获得过滤。

因为分数越好高(问题越复杂),区分度越好,所以最终选取了250 个平均得分>=6分(满分7分)的高质量分类。

然后,随机抽取每个类别的2个提示,形成了这版基准测试—— Arena-Hard-v0.1。

判卷老师靠谱吗?

试卷出完了,谁来判卷是个问题。

人工当然是最准的,而且因为这是「Hard模式」,很多涉及领域知识的问题还需要专家前来评估——这显然不行。

那么退而求其次,选择目前公认的最聪明的模型GPT-4来当判卷老师。

比如上面的那些图表中,涉及打分的环节,都是交给GPT-4来做的。另外,研究人员使用CoT提示LLM,在做出判决之前先生成答案。

GPT-4 判出的结果

下面使用gpt-4-1106-preview作为判断模型,用于比较的基线采用gpt-4-0314。

众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸图片

上表中比较并计算了每个模型的Bradley-Terry系数,并转换为相对于基线的胜率作为最终分数。95%置信区间是通过100轮引导计算得出的。

克劳德表示不服

——我Claude-3 Opus也是排行榜并列第一啊,凭啥让GPT当判卷老师?

于是,研究人员比较GPT-4-1106-Preview和Claude-3 Opus作为判卷老师的表现。

一句话总结:GPT-4是严父,Claude-3是慈母。

众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸图片

当使用GPT-4打分时,跨模型的可分离性更高(范围从23.0到78.0)。

而当使用Claude-3时,模型的得分大多都提高了不少:自家的模型肯定要照顾,开源模型也很喜欢(Mixtral、Yi、Starling),gpt-4-0125-preview也确实比我更好。

Claude-3甚至爱gpt-3.5-0613胜过gpt-4-0613。

下表使用可分离性和一致性指标进一步比较了GPT-4和Claude-3:

众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸图片

从结果数据来看,GPT-4在所有指标上都明显更好。

通过手动比较了GPT-4和Claude-3之间的不同判断示例,可以发现,当两位LLM意见不一致时,通常可以分为两大类:

保守评分,以及对用户提示的不同看法。

Claude-3-Opus在给分时比较宽容,给出苛刻分数的可能性要小得多——它特别犹豫是否要宣称一个回答比另一个回答「好得多」。

相比之下,GPT-4-Turbo会识别模型响应中的错误,并以明显较低的分数惩罚模型。

另一方面,Claude-3-Opus有时会忽略较小的错误。即使Claude-3-Opus确实发现了这些错误,它也倾向于将它们视为小问题,并在评分过程中非常宽容。

即使是在编码和数学问题中,小错误实际上会完全破坏最终答案,但Claude-3-Opus仍然对这些错误给予宽大处理,GPT-4-Turbo则不然。

众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸图片

对于另外一小部分提示,Claude-3-Opus和GPT-4-Turbo以根本不同的角度进行判断。

例如,给定一个编码问题,Claude-3-Opus倾向于不依赖外部库的简单结构,这样可以为用户提供最大教育价值的响应。

而GPT-4-Turbo可能会优先考虑提供最实用答案的响应,而不管它对用户的教育价值如何。

虽然这两种解释都是有效的判断标准,但GPT-4-Turbo的观点可能与普通用户更接近。

有关不同判断的具体例子,参见下图,其中许多都表现出这种现象。

众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸图片

局限性测试

LLM喜欢更长的回答吗?

下面绘制了在MT-Bench和Arena-Hard-v0.1上,每个模型的平均token长度和分数。从视觉上看,分数和长度之间没有很强的相关性。

众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸图片

为了进一步检查潜在的冗长偏差,研究人员使用GPT-3.5-Turbo对三种不同的系统提示(原始、健谈、详细)进行了消融。

结果表明,GPT-4-Turbo和Claude-3-Opus的判断都可能受到更长输出的影响,而Claude受到的影响更大(因为GPT-3.5-Turbo对GPT-4-0314的胜率超过40%)。

有趣的是,「健谈」对两位裁判的胜率影响不大,这表明输出长度不是唯一的因素,更详细的答案也可能受到LLM评委的青睐。

众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸图片

实验使用的提示:

detailed: You are a helpful assistant who thoroughly explains things with as much detail as possible.

chatty: You are a helpful assistant who is chatty.

GPT-4 判断的方差

研究人员发现,即使温度=0,GPT-4-Turbo仍可能产生略有不同的判断。

下面对gpt-3.5-turbo-0125的判断重复三次并计算方差。

众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸图片

由于预算有限,这里只对所有模型进行一次评估。不过作者建议使用置信区间来确定模型分离。

参考资料:https://www.php.cn/link/c30ca4400db3c72274c8ad819f688c21

以上就是众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/795646.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月26日 15:54:55
下一篇 2025年11月26日 15:55:14

相关推荐

  • HiDream-I1— 智象未来开源的文生图模型

    hidream-i1:一款强大的开源图像生成模型 HiDream-I1是由HiDream.ai团队开发的17亿参数开源图像生成模型,采用MIT许可证,在图像质量和对提示词的理解方面表现卓越。它支持多种风格,包括写实、卡通和艺术风格,广泛应用于艺术创作、商业设计、科研教育以及娱乐媒体等领域。 HiDr…

    2025年12月5日
    000
  • vivo Pad3 Pro 正式登场 跑分离谱还有蓝心大模型

    中关村在线消息:vivo 旗舰新品发布会正在进行中,本场发布会第一个登场的产品是 vivo pad3 pro。新款产品上来就放出王炸,搭载天玑 9300 处理器,跑分超过 210 万,也是行业首个突破 200 万的平板电脑。在游戏测试中,在 90 帧 +hdr 高清画质下,帧率稳定一条直线,性能十分…

    2025年12月5日
    000
  • DevDocs— 开源的技术文档爬取和处理工具

    devdocs:程序员和ai开发者的效率利器 DevDocs是一款开源的技术文档爬取与处理工具,专为程序员和AI开发者打造。它利用智能爬虫技术,高效地收集和整理技术文档,将原本需要数周才能完成的任务缩短至数小时。DevDocs支持多线程爬取,速度快,并能自动识别和处理网站链接,支持1-5层深度爬取。…

    2025年12月5日
    000
  • 谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

    大模型做奥赛题游刃有余,简单的数数却屡屡翻车的原因找到了。 谷歌的一项新研究,发现大模型不会数数的原因,并不是简单的 tokenizer 所致,而是没有足够的空间来存储用于计数的向量。 数出一段话中某个单词出现的次数,这样简单的任务可以难倒许多大模型,GPT-4o、Claude 3.5 也无法幸免。…

    2025年12月5日 硬件教程
    000
  • BlenderMCP— 基于 MCP 集成的 3D 建模工具

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ MCP Market MCP Servers集合平台,帮你找到最好的MCP服务器 67 查看详情 BlenderMCP是什么 blendermcp是一种将blender与claude ai通过模…

    2025年12月4日 科技
    000
  • 显著超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

    上海交大、上海ai lab和港中文大学的研究人员推出visual-rft(视觉强化微调)开源项目,该项目仅需少量数据即可显著提升视觉语言大模型(lvlm)性能。visual-rft巧妙地将deepseek-r1的基于规则奖励的强化学习方法与openai的强化微调(rft)范式相结合,成功地将这一方法…

    2025年12月3日 硬件教程
    000
  • AI 越聪明越不听话!新研究:最强推理模型指令遵循率仅 50%

    如果面前有两个 ai 助手:一个很聪明但经常不守规矩,另一个很听话但不太聪明,你会怎么选? 最近,上海人工智能实验室与香港中文大学的研究团队发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Lar…

    2025年12月3日 硬件教程
    100
  • RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

    清华和上交的最新论文中,上演了一场“学术打假”的戏码。文中研究者们对当前“纯 rl 有利于提升模型推理能力”的主流观点提出了相反的意见。 通过一系列实验,他们证明引入强化学习的模型在某些任务中的表现,竟然不如未使用强化学习的模型。 论文批判性地探讨了 RLVR 在提升 LLM 推理能力方面的作用,尤…

    2025年12月3日 科技
    100
  • SQLServer数据源驱动怎么选_SQLServer数据源驱动程序选择

    答案:选择SQL Server数据源驱动应根据应用语言和需求确定。Java应用首选Microsoft JDBC Driver,.NET应用推荐Microsoft.Data.SqlClient,二者在性能、功能支持和新特性集成上优于通用ODBC驱动;虽ODBC适用于跨平台或遗留系统,但原生驱动因更优的…

    2025年12月3日 数据库
    000
  • 持续80天超100万人在线!魔兽回归后在线数据创10年最佳

    自《魔兽世界》回归以来,这款风靡全球的经典多人在线角色扮演游戏再次在国内掀起了热潮。 在20周年玩家交流会上,官方宣布《魔兽世界》国服最高同时在线的玩家数同时在线人数持续80天超过了100万人。 如果以 Steam的公开数据为标准,仅《魔兽世界》国服的在线人数,就能登上全球第一。20岁的《魔兽世界》…

    2025年12月2日 行业动态
    000
  • 讲述mysql数据表几种有效优化方法

    下面我们要四种关于mysql数据表几种有效优化方法哦,从而提高mysql数据库在应用方面的数据吞吐能力。

    数据库 2025年12月2日
    000
  • 《梦幻西游》全新赛事祥瑞即将来袭,剪影图曝光

    《梦幻西游》电脑版全新赛事祥瑞曝光,11月将会和广大玩家正式亮相!你们猜猜这只祥瑞是以什么为原型做的设计,以及和梦幻接下来的什么活动有关 无涯·问知 无涯·问知,是一款基于星环大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情 以上就是《梦幻…

    2025年12月2日 行业动态
    000
  • mysql查询多少秒内的数据显示

    mysql查询多少秒内的数据显示

    数据库 2025年12月2日
    000
  • excel数据导入mysql数据库二种方法

    下面我们要讲二种excel数据导入mysql数据库方法了,这二种方法比较简单,也是很方便的,以前我把excel数据导入到mysql数据库都是用php程序来实例,现在我们不需要程序,用现有的工具就行了。

    数据库 2025年12月2日
    000
  • 《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队!

    《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队! 无涯·问知 无涯·问知,是一款基于星环大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情 以上就是《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队!的详细内容,更多请关注…

    2025年12月2日
    000
  • 精妙的SQL和SQL SERVER 与ACCESS、EXCEL的数据导入导出转换

    sqlserver 与access,excel互相导入导出代码 * 说明:复制表(只复制结构,源表名:a 新表名:b) select * into b from a where 11 * 说明:拷贝表(拷贝数据,源表名:a 目标表名:b) insert into b(a, b, c) select …

    数据库 2025年12月2日
    000
  • Oracle中的INTERVAL数据类型详解

    NTERVAL YEAR TO MONTH数据类型 Oracle语法: INTERVAL integer [- integer] {YEAR | MONTH} [(precision)][TO {YEAR | MONTH}] 该数据类型常用来表示一段时间差, 注意时间差只精确到年和月. precis…

    数据库 2025年12月2日
    000
  • Oracle数据分摊问题解析

    经常会碰到,由于业务需要,需要将某种汇总的数据按照一定的原则分摊给一堆数据。 其实,如果逻辑清晰的话,这类型的程序还是比较好些的。 本文重点是如果用简单的程序实现这种效果,而且不容易分摊分错。 所有的分摊问题,首先必须要搞清楚以下几点问题: 1 经常会碰到,由于业务需要,需要将某种汇总的数据按照一定…

    数据库 2025年12月2日
    000
  • MySQL怎么去除重复数据?

    这篇文章主要介绍了%ign%ignore_a_1%re_a_1% 去除重复数据实例详解的相关资料,需要的朋友可以参考下 MySQL 去除重复数据实例详解 有两个意义上的重复记录,一是完全重复的记录,也即所有字段均都重复,二是部分字段重复的记录。对于第一种重复,比较容易解决,只需在查询语句中使用dis…

    2025年12月2日
    000
  • Mysql删除重复的数据的方法

    这篇文章主要介绍了mysql删除重复的数据 mysql数据去重复,需要的朋友可以参考下 MySQL数据库中查询重复数据 select * from employee group by emp_name having count (*)>1; Mysql  查询可以删除的重复数据 启科网络PHP…

    2025年12月2日
    000

发表回复

登录后才能评论
关注微信