奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonnet vs. GPT-4o？

程序猿 • 2025年11月26日 15:12:33 • 用户投稿 • 阅读 1

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonnet vs. GPT-4o？

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

上海交通大学生成式人工智能实验室 (GAIR Lab) 的研究团队，主要研究方向是：大模型训练、对齐与评估。

团队主页：https://plms.ai/

AI技术日新月异，近来Anthropic公司最新发布的Claude-3.5-Sonnet因在知识型推理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论：Claude-3.5-Sonnet 已经取代OpenAI的GPT4o成为世界上”最聪明的AI“（Most Intelligent AI）了吗？回答这个问题的挑战在于我们首先需要一个足够挑战的智力测试基准，使得我们可以区分目前最高水平的AI。

上海交通大学生成式人工智能实验室（GAIR Lab）推出的OlympicArena[1] （奥林匹克竞技场）满足了这个需求。

奥林匹克学科竞赛不仅是对人类（碳基智能）思维敏捷性、知识掌握和逻辑推理的极限挑战，更是AI（“硅基智能”）锻炼的绝佳练兵场，是衡量AI与“超级智能”距离的重要标尺。OlympicArena——一个真正意义上的AI奥运竞技场。在这里，AI不仅要展示其在传统学科知识上的深度（数学、物理、生物、化学、地理等顶级竞赛），还要在模型间的认知推理能力上展开较量。

近日，同样是研究团队，首次提出使用”奥林匹克竞赛奖牌榜“的方法，根据各AI模型在奥林匹克竞技场（各学科）的综合表现进行排名，选出迄今为止智力最高的AI。在此次竞技场中，研究团队重点分析并比较了最近发布的两个先进模型——Claude-3.5-Sonnet和Gemini-1.5-Pro，以及OpenAI的GPT-4系列（e.g., GPT4o)。通过这种方式，研究团队希望能够更有效地评估和推动AI技术的发展。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图: 奥林匹克学科竞赛奖牌榜

注：研究团队首先依据金牌数量对模型进行排序，如果金牌数量相同，则按照整体性能分数来排序。

实验结果表明：

Claude-3.5-Sonnet在整体表现上与GPT-4o相比极具竞争力，甚至在一些科目上超过了GPT-4o（比如在物理、化学和生物学上）。

Gemini-1.5-Pro和GPT-4V排名紧随GPT-4o和Claude-3.5-Sonnet之后，但它们之间存在明显的表现差距。

来自开源社区的AI模型性能明显落后于这些专有模型。

这些模型在此基准测试上的表现不尽人意，表明我们在实现超级智能之路上还有很长的路要走。

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonnet vs. GPT-4o？

项目主页：https://gair-nlp.github.io/OlympicArena/

实验设置

研究团队采取OlympicArena的测试集进行评估。该测试集的答案并未公开，有助于防止数据泄露，从而反映模型的真实性能。研究团队测试了多模态大模型（LMMs）和纯文本大模型（LLMs）。对于LLMs的测试，输入时不提供任何与图像相关的信息给模型，仅提供文本。所有评估均采用零样本（zero-shot）思维链（Chain of Thought）提示词。

评估对象

研究团队评估了一系列开源和闭源的多模态大模型（LMMs）和纯文本大模型（LLMs）。对于LMMs，选择了GPT-4o、GPT-4V、Claude-3-Sonnet、Gemini Pro Vision、Qwen-VL-Max等闭源模型，此外还评估了LLaVA-NeXT-34B、InternVL-Chat-V1.5、Yi-VL-34B和Qwen-VL-Chat等开源模型。对于LLMs，主要评估了Qwen-7B-Chat、Qwen1.5-32B-Chat、Yi-34B-Chat和InternLM2-Chat-20B等开源模型。

此外，研究团队特别包括了新发布的Claude-3.5-Sonnet以及Gemini-1.5-Pro，并将它们与强大的GPT-4o和GPT-4V进行比较。以反映最新的模型性能表现。

评估方法

衡量标准鉴于所有问题都可以通过基于规则的匹配进行评估，研究团队对非编程任务使用准确率，并对编程任务使用公正的pass@k指标，定义如下：

本次评估中设定k = 1且n = 5，c表示通过所有测试用例的正确样本数量。

奥林匹克竞技场奖牌榜：

与奥运会使用的奖牌系统类似，是一个专门设计用来评估AI模型在各个学术领域性能的先驱性排名机制。该表为在任一给定学科中取得前三名成绩的模型颁发奖牌，从而为比较不同模型提供了一个明确且具有竞争性的框架。研究团队首先依据金牌数量对模型进行排序，如果金牌数量相同，则按照整体性能分数来排序。它提供了一种直观简洁的方式来识别不同学术领域中的领先模型，使研究人员和开发者更容易理解不同模型的优势和劣势。

细粒度评估：

研究团队还基于不同学科、不同模态、不同语言以及不同类型的逻辑和视觉推理能力进行基于准确性的细粒度评估。

结果与分析

分析内容主要关注Claude-3.5-Sonnet和GPT-4o，同时也对Gemini-1.5-Pro的性能表现进行了部分讨论。

总体情况

表:模型在不同学科上的表现

根据表格的总体结果，可以观察到：

新发布的Claude-3.5-Sonnet性能强大，达到了几乎与GPT-4o相当的水平。两者的整体准确率差异仅约1%。

新发布的Gemini-1.5-Pro也展现出了相当的实力，在大多数学科中的表现超过了GPT-4V（OpenAI当前第二强大的模型）。

值得注意的是，在撰写本报告时，这三个模型中最早的发布时间仅为一个月前，反映了这一领域的快速发展。

针对学科的细粒度分析

GPT-4o vs. Claude-3.5-Sonnet：

尽管GPT-4o和Claude-3.5-Sonnet在整体上表现相似，但两个模型都展现了不同的学科优势。GPT-4o在传统的演绎和归纳推理任务上展现出更优秀的能力，特别是在数学和计算机科学方面。Claude-3.5-Sonnet在物理、化学和生物等学科表现出色，特别是在生物学上，它超过GPT-4o 3%。

GPT-4V vs. Gemini-1.5-Pro：

在Gemini-1.5-Pro与GPT-4V的比较中，可以观察到类似的现象。Gemini-1.5-Pro在物理、化学和生物学方面的表现显著优于GPT-4V。然而，在数学和计算机科学方面，Gemini-1.5-Pro优势不明显甚至不如GPT-4V。

从这两组比较中，可以看出：

OpenAI的GPT系列在传统的数学推理和编程能力上表现突出。这表明GPT系列模型已经经过了严格训练以处理需要大量演绎推理和算法思维的任务。

相反，当涉及到需要将知识与推理结合的学科，如物理、化学和生物学时，其他模型如Claude-3.5-Sonnet和Gemini-1.5-Pro展现出了具有竞争性的表现。这体现了不同模型的专业领域以及潜在的训练重点，表明在推理密集型任务以及知识整合型任务可能存在的权衡。

针对推理类型的细粒度分析

新CG儿

数字视觉分享平台 | AE模板_视频素材

412 查看详情

Caption: 各模型在逻辑推理能力上的表现。逻辑推理能力包括：演绎推理（DED）、归纳推理（IND）、溯因推理（ABD）、类比推理（ANA）、因果推理（CAE）、批判性思维（CT）、分解推理（DEC）和定量推理（QUA）。

GPT-4o 与 Claude-3.5-Sonnet 在逻辑推理能力上的比较：

从表格的实验结果可以看出，GPT-4o在大多数的逻辑推理能力上优于Claude-3.5-Sonnet，例如演绎推理、归纳推理、溯因推理、类比推理和批判性思维方面。然而，Claude-3.5-Sonnet在因果推理、分解推理和定量推理上的表现超过了GPT-4o。整体而言，两个模型的表现相当，虽然GPT-4o在大多数类别上略有优势。

表: 各模型在视觉推理能力上的表现。视觉推理能力包括：模式识别（PR）、空间推理（SPA）、图表推理（DIA）、符号解释（SYB）和视觉比较（COM）。

GPT-4o vs. Claude-3.5-Sonnet 在视觉推理能力上的表现：

从表格的实验结果可以看出，Claude-3.5-Sonnet在模式识别和图表推理方面能力领先，展现了其在模式识别和解读图表方面的竞争力。两个模型在符号解释方面表现相当，表明它们在理解和处理符号信息方面具有相当的能力。然而，GPT-4o在空间推理和视觉比较方面优于Claude-3.5-Sonnet，展示了其在需要理解空间关系和比较视觉数据的任务上的优越性。

综合学科与推理类型的分析，研究团队发现：

数学和计算机编程强调复杂演绎推理技巧和基于规则导出普适性结论，倾向于较少依赖预先存在的知识。相比之下，像化学和生物学这样的学科往往需要大量的知识库来基于已知的因果关系和现象信息进行推理。这表明，尽管数学和编程能力仍然是衡量模型推理能力的有效指标，其他学科更好地测试了模型在基于其内部知识进行推理和问题分析方面的能力。

不同学科的特点表明了定制化训练数据集的重要性。例如，要提高模型在知识密集型学科（如化学和生物学）中的表现，训练期间模型需要广泛接触特定领域的数据。相反，对于需要强大逻辑和演绎推理的学科，如数学和计算机科学，模型则能从专注于纯逻辑推理的训练中受益。

此外，推理能力和知识应用之间的区别表明了模型跨学科应用的潜力。例如，具有强大演绎推理能力的模型可以协助需要系统化思维解决问题的领域，如科学研究。而拥有丰富知识的模型在重度依赖现有信息的学科中非常宝贵，如医学和环境科学。理解这些细微差别有助于开发更专业和多功能的模型。

针对语言类型的细粒度分析

Caption: 各模型在不同语言问题的能力表现。

以上表格展示了模型在不同语言上的性能表现。研究团队发现大多数模型在英语上的准确度比中文要高，这种差距在排名靠前的模型中尤为显著。推测可能有以下几个原因：

尽管这些模型包含了大量中文训练数据并且具有跨语言泛化能力，但它们的训练数据主要以英语为主。

中文问题的难度比英文问题更具挑战性，尤其是在物理和化学等科目中，中国奥林匹克竞赛的问题更难。

这些模型在识别多模态图像中的字符方面能力不足，中文环境下这一问题更为严重。

然而，研究团队也发现一些中国厂商开发或基于支持中文的基模型进行微调的模型，在中文场景下的表现优于英文场景，例如Qwen1.5-32B-Chat、Qwen-VL-Max、Yi-34B-Chat和Qwen-7B-Chat等。其他模型如InternLM2-Chat-20B和Yi-VL-34B，虽然仍然在英语上表现更好，但与排名靠前的闭源模型相比，它们在英语和中文场景间的准确度差异要小得多。这表明，为中文数据乃至全球更多语言优化模型，仍然需要显著的关注。

针对模态的细粒度分析

Caption: 各模型在不同模态问题的能力表现。

以上表格展示了模型在不同模态上的性能表现。GPT-4o在纯文本和多模态任务中均优于Claude-3.5-Sonnet，并在纯文本上表现更突出。另一方面，Gemini-1.5-Pro在纯文本和多模态任务上表现均优于GPT-4V。这些观察表明，即使是目前可用的最强模型，在纯文本任务上也比多模态任务有更高的准确率。这说明模型在利用多模态信息解决复杂推理问题方面仍有相当大的改进空间。

结语

研究团队在本次评测中主要关注最新的模型：Claude-3.5-Sonnet 和 Gemini-1.5-Pro，并将它们与 OpenAI 的 GPT-4o 和 GPT-4V 进行比较。此外，研究团队还设计了一种用于大模型的新颖排名系统——OlympicArena Medal Table，用来清晰的比较不同的模型的能力。研究团队发现，GPT-4o 在数学和计算机科学等科目上表现突出，具有较强的复杂演绎推理能力和基于规则得出普遍结论的能力。另一方面，Claude-3.5-Sonnet 更擅长根据已有的因果关系和现象进行推理。另外，研究团队还观察到这些模型在英语语言问题上表现更好，并且在多模态能力方面有显著的改进空间。理解模型这些细微差别有助于开发更专业化的模型，以更好地满足不同学术和专业领域的多样化需求。

随着四年一度的奥运盛事日益临近，我们不禁想象，如果人工智能也能参与其中，那将是一场怎样的智慧与技术的巅峰对决？不再仅仅是肢体的较量，AI的加入无疑将开启对智力极限的新探索, 也期待更多AI选手加入这场智力的奥运会。

参考链接：

[1] Huang et al., OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI https://arxiv.org/abs/2406.12753v1

以上就是奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonnet vs. GPT-4o？的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/793707.html

claude gair lab gemini git qwen type 工程硅基智能

赞 (0)

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

雀仔营地兑换码雀仔营地兑换码2025最新

雀仔营地兑换码雀仔营地兑换码2025最新

上一篇 2025年11月26日 15:12:33

Hybrid APP开发:为何成为中小企业快速上线的首选?

Hybrid APP开发:为何成为中小企业快速上线的首选?

下一篇 2025年11月26日 15:12:34

好文分享

HTML、CSS 和 JavaScript 中的简单侧边栏菜单

构建一个简单的侧边栏菜单是一个很好的主意，它可以为您的网站添加有价值的功能和令人惊叹的外观。侧边栏菜单对于客户找到不同项目的方式很有用，而不会让他们觉得自己有太多选择，从而创造了简单性和秩序。今天，我将分享一个简单的 HTML、CSS 和 JavaScript 源代码来创建一个简单的侧边栏菜单。…

程序猿
2025年12月24日
5000
好文分享

前端代码辅助工具：如何选择最可靠的AI工具？

前端代码辅助工具：可靠性探讨对于前端工程师来说，在HTML、CSS和JavaScript开发中借助AI工具是司空见惯的事情。然而，并非所有工具都能提供同等的可靠性。个性化需求关于哪个AI工具最可靠，这个问题没有一刀切的答案。每个人的使用习惯和项目需求各不相同。以下是一些影响选择的重要因素：立…

程序猿
2025年12月24日
1000
好文分享

带有 HTML、CSS 和 JavaScript 工具提示的响应式侧边导航栏

响应式侧边导航栏不仅有助于改善网站的导航，还可以解决整齐放置链接的问题，从而增强用户体验。通过使用工具提示，可以让用户了解每个链接的功能，包括设计紧凑的情况。在本教程中，我将解释使用 html、css、javascript 创建带有工具提示的响应式侧栏导航的完整代码。对于那些一直想要一个干净、简…

程序猿
2025年12月24日
1000
好文分享

布局 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在这里查看视觉效果：固定导航 – 布局 – codesandbox两列 – 布局 – codesandbox三列 – 布局 – codesandbox圣杯 &#8…

程序猿
2025年12月24日
1000
好文分享

隐藏元素 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在此处查看隐藏元素的视觉效果 – codesandbox 隐藏元素 hiding elements hiding elements hiding elements hiding elements hiding element…

程序猿
2025年12月24日
5000
居中 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在此处查看垂直中心 – codesandbox 和水平中心的视觉效果。通过 css 居中垂直居中 centering centering centering centering centering centering立即…

程序猿
2025年12月24日 • 好文分享
4000
好文分享

如何在 Laravel 框架中轻松集成微信支付和支付宝支付？

如何用 laravel 框架集成微信支付和支付宝支付问题：如何在 laravel 框架中集成微信支付和支付宝支付？回答：建议使用 easywechat 的 laravel 版，easywechat 是一个由腾讯工程师开发的高质量微信开放平台 sdk，已被广泛地应用于许多 laravel 项目中…

程序猿
2025年12月24日
1000
好文分享

如何在移动端实现子 div 在父 div 内任意滑动查看？

如何在移动端中实现让子 div 在父 div 内任意滑动查看在移动端开发中，有时我们需要让子 div 在父 div 内任意滑动查看。然而，使用滚动条无法实现负值移动，因此需要采用其他方法。解决方案：使用绝对布局（absolute）或相对布局（relative）：将子 div 设置为绝对或相对定…

程序猿
2025年12月24日
1000
好文分享

移动端嵌套 DIV 中子 DIV 如何水平滑动？

移动端嵌套 DIV 中子 DIV 滑动在移动端开发中，遇到这样的问题：当子 DIV 的高度小于父 DIV 时，无法在父 DIV 中水平滚动子 DIV。无限画布要实现子 DIV 在父 DIV 中任意滑动，需要创建一个无限画布。使用滚动无法达到负值，因此需要使用其他方法。相对定位一种方法是将子…

程序猿
2025年12月24日
1000
好文分享

移动端项目中，如何消除rem字体大小计算带来的CSS扭曲？

移动端项目中消除rem字体大小计算带来的css扭曲在移动端项目中，使用rem计算根节点字体大小可以实现自适应布局。但是，此方法可能会导致页面打开时出现css扭曲，这是因为页面内容在根节点字体大小赋值后重新渲染造成的。解决方案：要避免这种情况，将计算根节点字体大小的js脚本移动到页面的最前面，即…

程序猿
2025年12月24日
0000
好文分享

Nuxt 移动端项目中 rem 计算导致 CSS 变形，如何解决？

Nuxt 移动端项目中解决 rem 计算导致 CSS 变形在 Nuxt 移动端项目中使用 rem 计算根节点字体大小时，可能会遇到一个问题：页面内容在字体大小发生变化时会重绘，导致 CSS 变形。解决方案：可将计算根节点字体大小的 JS 代码块置于页面最前端的标签内，确保在其他资源加载之前执…

程序猿
2025年12月24日
2000
好文分享

Nuxt 移动端项目使用 rem 计算字体大小导致页面变形，如何解决？

rem 计算导致移动端页面变形的解决方法在 nuxt 移动端项目中使用 rem 计算根节点字体大小时，页面会发生内容重绘，导致页面打开时出现样式变形。如何避免这种现象？解决方案：移动根节点字体大小计算代码到页面顶部，即 head 中。原理： flexível.js 也遇到了类似问题，它的解决…

程序猿
2025年12月24日
0000
好文分享

形状 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在此处查看 codesandbox 的视觉效果。通过css绘制各种形状如何在 css 中绘制正方形、梯形、三角形、异形三角形、扇形、圆形、半圆、固定宽高比、0.5px 线？ shapes 0.5px line .square { w…

程序猿
2025年12月24日
1000
好文分享

有哪些美观的开源数字大屏驾驶舱框架？

开源数字大屏驾驶舱框架推荐问题：有哪些美观的开源数字大屏驾驶舱框架？答案：资源包 [弗若恩智能大屏驾驶舱开发资源包](https://www.fanruan.com/resource/152) 软件 [弗若恩报表 – 数字大屏可视化组件](https://www.fanruan.c…

程序猿
2025年12月24日
0000
好文分享

网站底部如何实现飘彩带效果？

网站底部飘彩带效果的 js 库实现许多网站都会在特殊节日或活动中添加一些趣味性的视觉效果，例如点击按钮后散发的五彩缤纷的彩带。对于一个特定的网站来说，其飘彩带效果的实现方式可能有以下几个方面：以 https://dub.sh/ 网站为例，它底部按钮点击后的彩带效果是由 javascript 库实…

程序猿
2025年12月24日
0000
网站彩带效果背后是哪个JS库？

网站彩带效果背后是哪个js库？当你访问某些网站时，点击按钮后，屏幕上会飘出五颜六色的彩带，营造出庆祝的氛围。这些效果是通过使用javascript库实现的。问题：哪个javascript库能够实现网站上点击按钮散发彩带的效果？答案：根据给定网站的源代码分析：可以发现，该网站使用了以下js…

程序猿
好文分享 2025年12月24日
1000
好文分享

产品预览卡项目

这个项目最初是来自 Frontend Mentor 的挑战，旨在使用 HTML 和 CSS 创建响应式产品预览卡。最初的任务是设计一张具有视觉吸引力和功能性的产品卡，能够无缝适应各种屏幕尺寸。这涉及使用 CSS 媒体查询来确保布局在不同设备上保持一致且用户友好。产品卡包含产品图像、标签、标题、描述和…

程序猿
2025年12月24日
1000
好文分享

如何利用 echarts-gl 绘制带发光的 3D 图表？

如何绘制带发光的 3d 图表，类似于 echarts 中的示例？为了实现类似的 3d 图表效果，需要引入 echarts-gl 库：https://github.com/ecomfe/echarts-gl。 echarts-gl 专用于在 webgl 环境中渲染 3d 图形。它提供了各种 3d 图…

程序猿
2025年12月24日
0000
好文分享

如何在 Element UI 的 el-rate 组件中实现 5 颗星 5 分制与百分制之间的转换？

如何在el-rate中将5颗星5分制的分值显示为5颗星百分制？要实现该效果，只需使用 el-rate 组件的 allow-half 属性。在设置 allow-half 属性后，获得的结果乘以 20 即可得到0-100之间的百分制分数。如下所示： score = score * 20; 动态显示鼠标…

程序猿
2025年12月24日
1000
好文分享

CSS 最佳实践：后端程序员重温 CSS 时常见的三个疑问？

CSS 最佳实践：提升代码质量作为后端程序员，在重温 CSS/HTML 时，你可能会遇到一些关于最佳实践的问题。以下将解答三个常见问题，帮助你编写更规范、清晰的 CSS 代码。 1. margin 设置策略当相邻元素都设置了 margin 时，通常情况下应为上一个元素设置 margin-bott…

程序猿
2025年12月24日
0000

发表回复

登录后才能评论

关注微信