奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
上海交通大学生成式人工智能实验室 (GAIR Lab) 的研究团队,主要研究方向是:大模型训练、对齐与评估。
团队主页:https://plms.ai/
AI技术日新月异,近来Anthropic公司最新发布的Claude-3.5-Sonnet因在知识型推理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论:Claude-3.5-Sonnet 已经取代OpenAI的GPT4o成为世界上”最聪明的AI“(Most Intelligent AI)了吗?回答这个问题的挑战在于我们首先需要一个足够挑战的智力测试基准,使得我们可以区分目前最高水平的AI
上海交通大学生成式人工智能实验室(GAIR Lab)推出的OlympicArena[1] (奥林匹克竞技场)满足了这个需求。
奥林匹克学科竞赛不仅是对人类(碳基智能)思维敏捷性、知识掌握和逻辑推理的极限挑战,更是AI(“硅基智能”)锻炼的绝佳练兵场,是衡量AI与“超级智能”距离的重要标尺。OlympicArena——一个真正意义上的AI奥运竞技场。在这里,AI不仅要展示其在传统学科知识上的深度(数学、物理、生物、化学、地理等顶级竞赛),还要在模型间的认知推理能力上展开较量。
近日,同样是研究团队,首次提出使用”奥林匹克竞赛奖牌榜“的方法,根据各AI模型在奥林匹克竞技场(各学科)的综合表现进行排名,选出迄今为止智力最高的AI。在此次竞技场中,研究团队重点分析并比较了最近发布的两个先进模型——Claude-3.5-SonnetGemini-1.5-Pro,以及OpenAI的GPT-4系列(e.g., GPT4o)。通过这种方式,研究团队希望能够更有效地评估和推动AI技术的发展。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

奥林匹克竞赛里选最聪明的ai:claude-3.5-sonnet vs. gpt-4o?

                                图: 奥林匹克学科竞赛奖牌榜
                              注:研究团队首先依据金牌数量对模型进行排序,如果金牌数量相同,则按照整体性能分数来排序。
实验结果表明:
Claude-3.5-Sonnet在整体表现上与GPT-4o相比极具竞争力,甚至在一些科目上超过了GPT-4o(比如在物理、化学和生物学上)。
Gemini-1.5-Pro和GPT-4V排名紧随GPT-4o和Claude-3.5-Sonnet之后,但它们之间存在明显的表现差距。
来自开源社区的AI模型性能明显落后于这些专有模型。
这些模型在此基准测试上的表现不尽人意,表明我们在实现超级智能之路上还有很长的路要走。

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

项目主页:https://gair-nlp.github.io/OlympicArena/
实验设置
研究团队采取OlympicArena的测试集进行评估。该测试集的答案并未公开,有助于防止数据泄露,从而反映模型的真实性能。研究团队测试了多模态大模型(LMMs)和纯文本大模型(LLMs)。对于LLMs的测试,输入时不提供任何与图像相关的信息给模型,仅提供文本。所有评估均采用零样本(zero-shot)思维链(Chain of Thought)提示词。
评估对象
研究团队评估了一系列开源和闭源的多模态大模型(LMMs)和纯文本大模型(LLMs)。对于LMMs,选择了GPT-4o、GPT-4V、Claude-3-Sonnet、Gemini Pro Vision、Qwen-VL-Max等闭源模型,此外还评估了LLaVA-NeXT-34B、InternVL-Chat-V1.5、Yi-VL-34B和Qwen-VL-Chat等开源模型。对于LLMs,主要评估了Qwen-7B-Chat、Qwen1.5-32B-Chat、Yi-34B-Chat和InternLM2-Chat-20B等开源模型。
此外,研究团队特别包括了新发布的Claude-3.5-Sonnet以及Gemini-1.5-Pro,并将它们与强大的GPT-4o和GPT-4V进行比较。以反映最新的模型性能表现。
评估方法
衡量标准 鉴于所有问题都可以通过基于规则的匹配进行评估,研究团队对非编程任务使用准确率,并对编程任务使用公正的pass@k指标,定义如下:

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

本次评估中设定k = 1且n = 5,c表示通过所有测试用例的正确样本数量。
奥林匹克竞技场奖牌榜:
与奥运会使用的奖牌系统类似,是一个专门设计用来评估AI模型在各个学术领域性能的先驱性排名机制。该表为在任一给定学科中取得前三名成绩的模型颁发奖牌,从而为比较不同模型提供了一个明确且具有竞争性的框架。研究团队首先依据金牌数量对模型进行排序,如果金牌数量相同,则按照整体性能分数来排序。它提供了一种直观简洁的方式来识别不同学术领域中的领先模型,使研究人员和开发者更容易理解不同模型的优势和劣势。
细粒度评估:
研究团队还基于不同学科、不同模态、不同语言以及不同类型的逻辑和视觉推理能力进行基于准确性的细粒度评估。
结果与分析
分析内容主要关注Claude-3.5-Sonnet和GPT-4o,同时也对Gemini-1.5-Pro的性能表现进行了部分讨论。
总体情况

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

                                  表:模型在不同学科上的表现
根据表格的总体结果,可以观察到:
新发布的Claude-3.5-Sonnet性能强大,达到了几乎与GPT-4o相当的水平。两者的整体准确率差异仅约1%。
新发布的Gemini-1.5-Pro也展现出了相当的实力,在大多数学科中的表现超过了GPT-4V(OpenAI当前第二强大的模型)。
值得注意的是,在撰写本报告时,这三个模型中最早的发布时间仅为一个月前,反映了这一领域的快速发展。
针对学科的细粒度分析
GPT-4o vs. Claude-3.5-Sonnet:
尽管GPT-4o和Claude-3.5-Sonnet在整体上表现相似,但两个模型都展现了不同的学科优势。GPT-4o在传统的演绎和归纳推理任务上展现出更优秀的能力,特别是在数学和计算机科学方面。Claude-3.5-Sonnet在物理、化学和生物等学科表现出色,特别是在生物学上,它超过GPT-4o 3%。
GPT-4V vs. Gemini-1.5-Pro:
在Gemini-1.5-Pro与GPT-4V的比较中,可以观察到类似的现象。Gemini-1.5-Pro在物理、化学和生物学方面的表现显著优于GPT-4V。然而,在数学和计算机科学方面,Gemini-1.5-Pro优势不明显甚至不如GPT-4V。
从这两组比较中,可以看出:
OpenAI的GPT系列在传统的数学推理和编程能力上表现突出。这表明GPT系列模型已经经过了严格训练以处理需要大量演绎推理和算法思维的任务。
相反,当涉及到需要将知识与推理结合的学科,如物理、化学和生物学时,其他模型如Claude-3.5-Sonnet和Gemini-1.5-Pro展现出了具有竞争性的表现。这体现了不同模型的专业领域以及潜在的训练重点,表明在推理密集型任务以及知识整合型任务可能存在的权衡。
针对推理类型的细粒度分析

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

新CG儿 新CG儿

数字视觉分享平台 | AE模板_视频素材

新CG儿 412 查看详情 新CG儿

Caption: 各模型在逻辑推理能力上的表现。逻辑推理能力包括:演绎推理(DED)、归纳推理(IND)、溯因推理(ABD)、类比推理(ANA)、因果推理(CAE)、批判性思维(CT)、分解推理(DEC)和定量推理(QUA)。
GPT-4o 与 Claude-3.5-Sonnet 在逻辑推理能力上的比较:
从表格的实验结果可以看出,GPT-4o在大多数的逻辑推理能力上优于Claude-3.5-Sonnet,例如演绎推理、归纳推理、溯因推理、类比推理和批判性思维方面。然而,Claude-3.5-Sonnet在因果推理、分解推理和定量推理上的表现超过了GPT-4o。整体而言,两个模型的表现相当,虽然GPT-4o在大多数类别上略有优势。

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

表: 各模型在视觉推理能力上的表现。视觉推理能力包括:模式识别(PR)、空间推理(SPA)、图表推理(DIA)、符号解释(SYB)和视觉比较(COM)。
GPT-4o vs. Claude-3.5-Sonnet 在视觉推理能力上的表现:
从表格的实验结果可以看出,Claude-3.5-Sonnet在模式识别和图表推理方面能力领先,展现了其在模式识别和解读图表方面的竞争力。两个模型在符号解释方面表现相当,表明它们在理解和处理符号信息方面具有相当的能力。然而,GPT-4o在空间推理和视觉比较方面优于Claude-3.5-Sonnet,展示了其在需要理解空间关系和比较视觉数据的任务上的优越性。
综合学科与推理类型的分析,研究团队发现:
数学和计算机编程强调复杂演绎推理技巧和基于规则导出普适性结论,倾向于较少依赖预先存在的知识。相比之下,像化学和生物学这样的学科往往需要大量的知识库来基于已知的因果关系和现象信息进行推理。这表明,尽管数学和编程能力仍然是衡量模型推理能力的有效指标,其他学科更好地测试了模型在基于其内部知识进行推理和问题分析方面的能力。
不同学科的特点表明了定制化训练数据集的重要性。例如,要提高模型在知识密集型学科(如化学和生物学)中的表现,训练期间模型需要广泛接触特定领域的数据。相反,对于需要强大逻辑和演绎推理的学科,如数学和计算机科学,模型则能从专注于纯逻辑推理的训练中受益。
此外,推理能力和知识应用之间的区别表明了模型跨学科应用的潜力。例如,具有强大演绎推理能力的模型可以协助需要系统化思维解决问题的领域,如科学研究。而拥有丰富知识的模型在重度依赖现有信息的学科中非常宝贵,如医学和环境科学。理解这些细微差别有助于开发更专业和多功能的模型。
针对语言类型的细粒度分析

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?                               Caption: 各模型在不同语言问题的能力表现。

以上表格展示了模型在不同语言上的性能表现。研究团队发现大多数模型在英语上的准确度比中文要高,这种差距在排名靠前的模型中尤为显著。推测可能有以下几个原因:
尽管这些模型包含了大量中文训练数据并且具有跨语言泛化能力,但它们的训练数据主要以英语为主。
中文问题的难度比英文问题更具挑战性,尤其是在物理和化学等科目中,中国奥林匹克竞赛的问题更难。
这些模型在识别多模态图像中的字符方面能力不足,中文环境下这一问题更为严重。
然而,研究团队也发现一些中国厂商开发或基于支持中文的基模型进行微调的模型,在中文场景下的表现优于英文场景,例如Qwen1.5-32B-Chat、Qwen-VL-Max、Yi-34B-Chat和Qwen-7B-Chat等。其他模型如InternLM2-Chat-20B和Yi-VL-34B,虽然仍然在英语上表现更好,但与排名靠前的闭源模型相比,它们在英语和中文场景间的准确度差异要小得多。这表明,为中文数据乃至全球更多语言优化模型,仍然需要显著的关注。
针对模态的细粒度分析

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

                              Caption: 各模型在不同模态问题的能力表现。
以上表格展示了模型在不同模态上的性能表现。GPT-4o在纯文本和多模态任务中均优于Claude-3.5-Sonnet,并在纯文本上表现更突出。另一方面,Gemini-1.5-Pro在纯文本和多模态任务上表现均优于GPT-4V。这些观察表明,即使是目前可用的最强模型,在纯文本任务上也比多模态任务有更高的准确率。这说明模型在利用多模态信息解决复杂推理问题方面仍有相当大的改进空间。
结语
研究团队在本次评测中主要关注最新的模型:Claude-3.5-Sonnet 和 Gemini-1.5-Pro,并将它们与 OpenAI 的 GPT-4o 和 GPT-4V 进行比较。此外,研究团队还设计了一种用于大模型的新颖排名系统——OlympicArena Medal Table,用来清晰的比较不同的模型的能力。研究团队发现,GPT-4o 在数学和计算机科学等科目上表现突出,具有较强的复杂演绎推理能力和基于规则得出普遍结论的能力。另一方面,Claude-3.5-Sonnet 更擅长根据已有的因果关系和现象进行推理。另外,研究团队还观察到这些模型在英语语言问题上表现更好,并且在多模态能力方面有显著的改进空间。理解模型这些细微差别有助于开发更专业化的模型,以更好地满足不同学术和专业领域的多样化需求。
随着四年一度的奥运盛事日益临近,我们不禁想象,如果人工智能也能参与其中,那将是一场怎样的智慧与技术的巅峰对决?不再仅仅是肢体的较量,AI的加入无疑将开启对智力极限的新探索, 也期待更多AI选手加入这场智力的奥运会。
参考链接:
[1] Huang et al., OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI https://arxiv.org/abs/2406.12753v1

以上就是奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/793707.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
雀仔营地兑换码 雀仔营地兑换码2025最新
上一篇 2025年11月26日 15:12:33
Hybrid APP开发:为何成为中小企业快速上线的首选?
下一篇 2025年11月26日 15:12:34

相关推荐

  • 开源免费PHP工具 PHP开发效率提升利器

    推荐开源免费PHP开发工具以提升效率:VS Code、Sublime Text轻量高效,PhpStorm专业强大;调试用Xdebug、Kint、Ray;依赖管理选Composer;代码质量工具包括PHPStan、Psalm、PHP_CodeSniffer;数据库管理可用%ignore_a_1%MyA…

    2026年5月10日
    000
  • 谷歌浏览器如何截图 谷歌浏览器页面截图技巧

    谷歌浏览器如何截图 谷歌浏览器页面截图技巧谷歌浏览器如何截图 谷歌浏览器页面截图技巧谷歌浏览器如何截图 谷歌浏览器页面截图技巧谷歌浏览器如何截图 谷歌浏览器页面截图技巧

    使用谷歌浏览器的开发者工具截图步骤:1. 按ctrl+shift+i(windows/linux)或cmd+option+i(mac)打开开发者工具。2. 点击右上角三个点,选择”更多工具”,再选择”截图”。3. 选择截取整个页面。推荐的谷歌浏览器扩展…

    2026年5月10日 用户投稿
    100
  • JavaScript计算器开发:解决数值显示与初始化问题

    本教程深入探讨了使用JavaScript构建计算器时常见的数值显示异常问题,特别是由于类属性未初始化导致的`Cannot read properties of undefined`错误。我们将详细分析问题根源,并通过在构造函数中调用初始化方法来解决该问题,同时优化显示逻辑,确保计算器功能稳定且界面显…

    2026年5月10日
    000
  • NextAuth getToken 在服务端返回 null 的问题排查与解决

    问题描述 在使用 Next.js 和 NextAuth 构建应用程序时,有时需要在服务端获取用户的身份验证信息。getToken 函数是 NextAuth 提供的一个便捷方法,用于从请求中提取 JWT (JSON Web Token)。然而,在某些情况下,尤其是在使用 getServerSidePr…

    2026年5月10日
    000
  • HTML文档如何工作?如何编辑HTML格式文件?

    HTML文档如何工作?如何编辑HTML格式文件?HTML文档如何工作?如何编辑HTML格式文件?HTML文档如何工作?如何编辑HTML格式文件?HTML文档如何工作?如何编辑HTML格式文件?

    浏览器解析和渲染html的过程包括:1. 解析html构建dom树;2. 结合css构建渲染树;3. 布局计算元素位置;4. 绘制像素到屏幕。编辑html可使用记事本、vs code、sublime text等文本或代码编辑器,其中vs code因语法高亮、自动补全和插件生态成为主流选择。标准htm…

    2026年5月10日 用户投稿
    100
  • GolangWeb项目异常捕获与日志记录

    答案:通过中间件使用defer和recover捕获panic,结合zap等结构化日志库记录请求链路信息,为每个请求生成trace ID,实现异常捕获与可追踪日志,提升系统稳定性与可观测性。 在Go语言Web项目中,异常捕获与日志记录是保障系统稳定性和可维护性的关键环节。Go本身没有像其他语言那样的t…

    2026年5月10日
    000
  • Python官网用户调查的参与方式_Python官网反馈提交详细教程

    答案是通过访问Python官网新闻页面、邮件邀请链接或GitHub仓库提交反馈。具体为:访问官网查找用户调查公告,或点击邮件中的专属链接参与,在GitHub的cpython仓库提交技术建议,并注意如实填写问卷与保护隐私。 如果您希望参与Python官网的用户调查并提交反馈,可以通过官方指定的渠道完成…

    2026年5月10日
    000
  • Go语言连接外部MySQL数据库:DSN配置与常见错误解析

    本文详细阐述了go语言使用`go-sql-driver/mysql`驱动连接外部mysql数据库的正确方法。重点介绍了数据源名称(dsn)的规范格式,特别是主机地址部分的配置,以避免常见的“getaddrinfow: the specified class was not found.”等网络解析错…

    2026年5月10日
    000
  • Tensorflow 音乐预测

    在本文中,我展示了如何使用张量流来预测音乐风格。在我的示例中,我比较了电子音乐和古典音乐。 你可以在我的github上找到代码:https://github.com/victordalet/sound_to_partition i – 数据集 第一步,您需要创建一个数据集文件夹,并在里面…

    2026年5月10日
    000
  • 学习了Python的Flask后,Go语言的Web框架该选Gin还是Beego?

    学习编程时,选择合适的框架至关重要。许多开发者在掌握Python Flask后,转向Go语言Web开发时,常常在Gin和Beego之间难以抉择。本文将深入分析,助您做出明智选择。 虽然网上搜索结果多建议使用Go原生标准库http,但实际上所有框架都是对http的封装。虽然使用http开发灵活,但工作…

    2026年5月10日
    000
  • JavaScript动态下拉菜单:实现日期选项与价格计算关联

    在现代web应用中,动态生成表单元素并使其具备交互逻辑是常见的需求。特别是在需要根据用户选择调整价格或服务参数的场景下,下拉菜单()常被用来展示一系列选项。本教程将指导您如何利用javascript动态生成一个包含日期选项的下拉菜单,并为每个选项关联一个具体的数值(如剩余天数),进而实现一个基于用户…

    2026年5月10日
    000
  • 如何在不暴露密钥的情况下,在客户端创建 Stripe Payment Link

    本文介绍了在纯静态网站环境下,如何利用 Stripe Payment Link 实现商品售卖,并着重讨论了在不暴露 Stripe 密钥的前提下,客户端创建 Payment Link 的可行性。分析了直接在客户端使用密钥的风险,并提出了预先生成 Payment Link 或使用后端服务动态生成 Pay…

    2026年5月10日
    000
  • 解决Go语言中GOPATH未设置错误及工作区配置指南

    本文旨在解决go语言开发中常见的“gopath not set”错误,并提供详细的go工作区配置指南。内容涵盖`gopath`环境变量的设置、go项目目录结构、`path`变量的扩展,以及一些高级配置技巧,旨在帮助开发者建立一个高效、规范的go开发环境,确保包的下载、编译和运行顺利进行。 Go语言在…

    2026年5月10日
    000
  • 掌握 JavaScript 中的高阶函数

    现代 javascript 开发严重依赖函数式编程,掌握其基本思想将极大提高你的编码能力。 高阶函数是这个范式最有力的武器之一。为了帮助您掌握它们,本文将介绍它们的定义、应用程序和独特的实现。 1. 函数式编程 函数式编程是一种编程范式,强调: 纯函数:没有副作用的函数,对于相同的输入返回相同的输出…

    2026年5月10日
    000
  • Golang使用assert库简化测试断言

    使用testify/assert库可提升Go测试代码的可读性和效率,通过go get github.com/stretchr/testify/assert安装后导入包,用assert.Equal等函数替代冗长的手动判断,支持丰富断言方法如Equal、True、Nil、Contains等,并可添加自定…

    2026年5月10日
    100
  • 如何处理在线编辑HTML时外部链接验证的处理方法

    在线编辑HTML时需验证外部链接以保障安全与可用性,可通过自动检测标记外链并添加rel属性提升安全性;2. 实时验证链接有效性,利用HEAD请求检查状态码并在编辑界面提示结果;3. 配置可信域名白名单控制高风险链接输入,适用于合规要求高的场景;4. 提供友好反馈机制,对无效或可疑链接弹出提示并支持新…

    2026年5月10日
    000
  • 怎样为C++配置嵌入式AI开发环境 TensorFlow Lite Micro移植指南

    怎样为C++配置嵌入式AI开发环境 TensorFlow Lite Micro移植指南怎样为C++配置嵌入式AI开发环境 TensorFlow Lite Micro移植指南怎样为C++配置嵌入式AI开发环境 TensorFlow Lite Micro移植指南怎样为C++配置嵌入式AI开发环境 TensorFlow Lite Micro移植指南

    要在c++++项目中使用tensorflow lite micro进行嵌入式ai开发,关键步骤包括:1. 确定mcu平台并安装对应的交叉编译工具链;2. 配置python环境并安装必要的依赖包;3. 获取并裁剪tflm源码,保留核心模块;4. 将tflm静态库集成到c++工程中;5. 按照模型加载、…

    2026年5月10日 用户投稿
    000
  • Golang图片处理技巧 imaging库裁剪缩放

    答案:使用Go语言的imaging库可高效实现图片裁剪与缩放,其API简洁易用,支持多种缩放算法(如Lanczos、CatmullRom)以平衡质量与性能,提供Crop和CropAnchor两种裁剪方式实现精确区域控制,并建议通过算法选择、内存管理、并发处理和错误校验等策略优化性能与稳定性。 在Go…

    2026年5月10日
    000
  • 如何通过GitHub API高效获取超过100个用户列表(分页教程)

    本教程旨在解决使用GitHub API获取用户列表时遇到的默认100个用户限制问题。我们将详细介绍两种主要的分页策略:利用Octokit库内置的paginate方法实现自动化分页,以及手动实现基于since参数的循环分页逻辑。文章将提供清晰的代码示例,并强调在不同场景下选择合适方法的注意事项,特别是…

    2026年5月10日
    100
  • c语言里面字符是什么意思

    字符在 C 语言中以单个字节存储于 char 变量中,用单引号括起表示常量,例如 ‘A’。字符变量用于存储字符值,可使用函数如 putchar() 输出、getchar() 输入、toupper() 转换大小写。字符数组存储多个字符,如 char name[10]。字符串是带…

    2026年5月10日
    000

发表回复

登录后才能评论
关注微信