大模型全军覆没,中科院自动化所推出多图数学推理新基准

近日,中国科学院自动化研究所推出多图数学推理全新基准mv-math(该工作已被cvpr 2025录用),这是一个精心策划的多图数学推理数据集,旨在全面评估mllm(多模态大语言模型)在多视觉场景中的数学推理能力。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

大模型全军覆没,中科院自动化所推出多图数学推理新基准

结果评估下来发现,GPT-4o仅得分32.1,类o1模型QvQ得分29.3,所有模型均不及格。

给大模型数学推理上难度

截止目前,多模态大模型在数学推理领域展现出了巨大的潜力。

然而,现有的多模态数学基准测试大多局限于单一视觉场景(单图推理),这与现实世界中复杂的多视觉数学应用(多图推理)相去甚远。

基于这一情况,多图数学推理数据集MV-MATH应运而生。MV-MATH包含2009个高质量数学问题,涵盖了从K-12教育场景中提取的真实问题。

每个问题都结合了多个图像和文本,形成了图文交错的多视觉场景。

这些问题分为选择题、填空题和多步问答题三种类型,覆盖了11个数学领域,包括解析几何、代数、度量几何、组合学、变换几何、逻辑、立体几何、算术、组合几何、描述性几何和统计学,并分为三个难度级别。

大模型全军覆没,中科院自动化所推出多图数学推理新基准

下图展示了MV-MATH与现有数据集的对比以及分布情况:

(a)与现有数学基准的比较(圆圈大小代表图片数量);(b)每个问题的长度分布;(c)每个问题的图像数量分布。

大模型全军覆没,中科院自动化所推出多图数学推理新基准

数据集特点

(1)多视觉场景

MV-MATH数据集中的每个问题都包含多个图像(2-8个图片),这些图像与文本交织在一起,形成了复杂的多视觉场景。

MV-MATH中的每个问题都是从真实的K-12场景中收集而来,这种设计更接近于现实世界中的数学问题,能够更好地评估MLLM在处理多视觉信息时的推理能力。

(2)丰富的标注

为了确保数据集的质量和可靠性,每个样本都经过了至少两名标注者的交叉验证。标注内容包括问题、答案、详细分析以及图像关联性,为模型评估提供了详细的信息。

(3)多样化的数学领域

MV-MATH涵盖了从基础算术到高级几何的11个数学领域,并根据详细答案的长度划分为3个难度等级,能够全面评估MLLM在不同数学领域的推理能力。

(4)图像关联性

MV-MATH首次引入图像相关性这一特征标签,根据据图像是否相关,数据集被分为两个子集:相互依赖集(Mutually Dependent Set,MD)和独立集(Independent Set,ID)。

大模型全军覆没,中科院自动化所推出多图数学推理新基准

在MD子集中,图像之间相互关联,理解一个图像需要参考其他图像;而在ID子集中,图像之间相互独立,可以单独解释。

例如,下图中前两个题目属于相互依赖集,最后一个为题目属于独立集。

多图推理综合评估

可图大模型 可图大模型

可图大模型(Kolors)是快手大模型团队自研打造的文生图AI大模型

可图大模型 32 查看详情 可图大模型

研究团队在MV-MATH上进行了广泛的实验,评测了24个主流开源和闭源多模态大模型。

实验结果表明,即使是最先进的MLLM在多视觉数学任务中也面临着巨大的挑战,其表现与人类能力之间存在显著差距。

大模型全军覆没,中科院自动化所推出多图数学推理新基准

从模型总体表现来看,在MV-MATH数据集上,表现最好的模型是Claude-3.5,其整体准确率为33.9%,远低于人类水平(76.5%)。

其他表现较好的模型还包括GPT-4o(32.1%)、Gemini-1.5-Pro(29.1%)和Qwen-vl-max(26.9%)。

值得注意的是,开源模型LLaVA-OneVision-Chat-72B取得了26.2%的准确率,仅次于Qwen-vl-max。类o1模型QVQ-72B-Preview性能为29.3%,仅次于GPT-4o,这说明慢思考系统在多图推理任务上同样有效。

此外,模型在不同领域的表现也存在差异。

在算术领域,Claude-3.5的准确率最高,达到54.2%;而在组合几何领域,其准确率仅为27.0%。

这表明MLLM在处理需要复杂图像理解和推理的领域时存在较大困难。

与此同时,团队针对题目难度、模型提示、图像关联性以及图像输入方式四个维度对实验结果进行了更细粒度的分析。

大模型全军覆没,中科院自动化所推出多图数学推理新基准

具体而言,如图中(a)所示,在不同难度级别上,模型的表现也有所不同。

在简单问题上,GPT-4o的准确率最高,达到40.3%;而在中等难度问题上,Claude-3.5的准确率最高,为37.5%。在困难问题上,所有模型的表现都大幅下降,Claude-3.5的准确率仅为26.6%。

而图(b)表明,对于闭源模型,CoT和few-shot对MV-MATH多图推理并不一定有效。对于所有的开源模型,CoT和few-shot都会降点。

在图像关联性上,MD子集包含相互依赖的图像,需要更高水平的跨图像理解。

如图中(c)所示,绝大多数模型在MD子集上的性能均低于ID子集,其中Gemini-1.5-pro的性能差距最大,达到 7.8%。

这一观察结果表明,大多数模型在处理数学场景中的相互依赖图像任务上面临挑战,凸显了MLLM在处理数学多视觉环境中跨图像相互依赖关系的潜在局限性。

至于图像输入方式,如图中(d)所示,结果一致表明,在所有测试模型中,图像序列输入的表现都优于合并输入,这表明保留图像的位置和顺序信息对于多图推理至关重要。

序列输入的高性能凸显了结构化视觉信息在增强模型解释和处理复杂数学场景的能力方面的重要性。

小结

随着最近OpenAI o1,DeepSeek-R1等模型的爆火,大家看到了慢思考模型在文本推理上的强大性能。然而目前视觉大模型的慢推理仍然没有一个固定的范式。

本研究通过大量实验证实了MLLM在复杂多视觉感知与图像交叉理解上仍然存在困难,在多图数学推理上存在极大的改进空间。

本研究旨在全面评估MLLM在多视觉场景中的数学推理能力,推动多图数学推理的进一步发展。

以上就是大模型全军覆没,中科院自动化所推出多图数学推理新基准的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/354587.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月5日 23:53:54
下一篇 2025年11月5日 23:54:56

相关推荐

  • PHP静态页面如何与数据库交互?

    如何让 php 静态页面与数据库交互 当您学习 php 时,连接静态页面和数据库以管理数据非常重要。以下步骤将指导您完成此过程: 1. 连接到数据库 在您的 php 脚本中,使用 mysqli_connect() 函数建立与数据库的连接。 $conn = mysqli_connect(‘localh…

    2025年12月9日
    000
  • 如何从头开始为 PHP 应用程序构建路由系统

    如果您刚刚开始 PHP 开发之旅, 您很可能在 URL 中使用完整的文件名来导航 应用程序,例如 server/contact.php。不用担心,我们都是这样开始的,这就是我们学习的方式。 今天,我想帮助您改进在浏览器中导航文件的方式。 应用。我们将讨论路由,因为它在任何情况下都至关重要 现代应用。…

    2025年12月9日
    000
  • 如何用JavaScript限制单选评分元素,防止用户重复点击?

    如何限制多个评分元素,在选择一个后阻止其他元素被点击 您想要实现的功能是,在一个包含多个评分元素(例如按钮或链接)的列表中,当点击一个元素时,其他元素将被禁用且无法再次点击。 要实现此功能,可以采用以下步骤: 为 元素添加一个 id 立即学习“Java免费学习笔记(深入)”; 1 2 3 4 添加事…

    2025年12月9日
    000
  • 如何只允许用户单击一次评价选项,并阻止其他选项被点击?

    如何实现点击一个元素后,其他同类元素无法再次点击? 有四个评价选项,当用户单击其中一个评价并添加“on”类后,其他评价选项应该变为不可点击,并提示用户已经评价。 解决方法: 在 ul 标签上添加一个 id: 评价 1 评价 2 评价 3 评价 4 然后,使用 javascript 遍历 li 标签,…

    2025年12月9日
    000
  • 如何解决大小写敏感的URL跳转问题?

    如何解决大小写不敏感的内容地址跳转问题 您希望将包含小写路径(例如“http://xxxx/oa/pms/”)的地址重定向到相应的大写路径(“http://xxxx/oa/pms/”)。 解决方案 javascript 解决方案 在 index.html 页面中添加以下 javascript 代码:…

    2025年12月9日
    000
  • 甘特图选择困难症?过来人推荐哪款好用?

    最佳甘特图推荐:实践经验分享 在甘特图选择上苦苦寻求?以下是我们的推荐,专为那些亲身体验过的用户准备。 问题: 有推荐的甘特图推荐吗?最好是有实践经验的。市面上有不少选择,Ext JS 的官方网站却没有提及。是否有 Ext JS 的甘特图推荐? 回答: 经过深入搜索和实际使用,我们推荐以下甘特图: …

    2025年12月9日
    000
  • 有哪些好用的甘特图工具推荐?

    使用过的好用甘特图工具 对于甘特图工具,推荐使用 https://github.com/taitems/jQuery.Gantt/,因为它操作便捷且功能强大,许多程序员都对该工具给予了肯定的评价。 尽管 ExtJS 官网上可能没有专门的甘特图组件,但您可以使用第三方库或插件来实现甘特图功能。例如,j…

    2025年12月9日
    000
  • PHP中如何将XML文件处理结果存入变量?

    将处理xml文件的结果存入变量中 php中,你可以利用simplexml_load_string()函数将xml字符串转换为simplexml对象,该对象可以方便地访问xml文档中的数据。以下是一个示例,展示如何将xml文件的结果存入变量中: $string = <<<XML st…

    2025年12月9日
    000
  • PHP如何读取和处理XML文件并将数据保存到变量中?

    php 读取和处理 xml 文件 为了将 xml 文件中的数据保存到变量中,我们需要利用 php 中的内置函数。这通常涉及以下步骤: 加载 xml 文件: $xmlstring = ‘ status message remainpoint taskid successcounts’;$xmlobje…

    2025年12月9日
    000
  • PHP如何将XML文件内容解析并存储到变量中?

    php处理xml文件,将结果存入变量中 通过php对xml文件进行处理,可以将xml节点中的值提取出来,并存储到php变量中,以便于后期使用。具体步骤如下: 使用simplexml_load_string()函数加载xml字符串:可以使用该函数将xml字符串转换为simplexml对象,方便后续操作…

    2025年12月9日
    000
  • 如何将多层嵌套的JSON对象转换为易于操作的多维数组?

    给的json数据中,有很多层的对象,将对象嵌套多层不直观,所以一般我们将其转换为多维数组进行操作,转换方法便是遍历对象,然后将对象的每个属性挂载到该层级上,如果对象的属性具有子属性,则继续进行嵌套操作.具体操作: ‘use strict’;function convert(obj,keys,arr)…

    2025年12月9日
    000
  • Ubuntu下PHP无法创建目录或写入文件:如何解决权限问题?

    ubuntu 下 php 无法创建目录和写入文件 在 ubuntu 中配置 lamp 环境时,用户可能会遇到 php 无法创建目录及写入文件的情况。即使已将项目权限设置为 777,apache 仍会报告错误。本文将针对此问题提供解决方案。 php 代码片段如下: $max_size = 10000;…

    2025年12月9日
    000
  • PHP:逃离日期地狱的实用方法

    企业的关键功能通常依赖于日期,例如订阅、定期付款或预订。 作为一名 php 程序员,您可能需要操作日期/时间。 开始使用第三方库?真的吗? 虽然坚持使用本机 api 来掌握技能并了解语言的工作原理通常是一个很好的做法,但让我们务实一些。 carbon 是一个功能强大的库,它扩展了 datetimei…

    2025年12月9日
    000
  • 如何实现PHP AES RSA加密算法与C#和Java的互通?

    php aes rsa 算法修改以与 c# 和 java 互通 您希望将 php 中的 aes 和 rsa 加密算法修改为与 c# 和 java 互通。具体来说,您希望能够使用这些语言相互加密和解密数据。 一种实现此目标的途径是创建一个 php 加密服务。该服务将作为一个中间层,允许您使用 c# 和…

    2025年12月9日
    000
  • 如何用jQuery实现类似谷歌搜索的自动提示功能?

    实现类似google suggest的功能 问题: 如何实现类似谷歌搜索框的自动提示功能? 回答: 可以使用 [jquery ui 自动提示](http://jqueryui.com/autocomplete/) 来实现此功能。 该插件为 控件提供自动完成功能。它从预定义的选项列表中提取匹配建议,并…

    2025年12月9日
    000
  • 如何解决系统参数设置中出现的“hash_file: failed to open stream”错误?

    根据企业情况设置系统参数 在设置系统参数时,如果遇到“hash_file(up/1437616281如何根据企业情况设置系统参数?.doc): failed to open stream: Invalid argument”错误时,可以通过以下方法解决: 当输入的路径是中文路径时,系统不会报错。但是…

    2025年12月9日
    000
  • 如何从数据库中获取数据并以 PHP 形式形成?

    要从 PHP 数据库中获取数据并将其显示在表单中,通常需要执行以下步骤:1.连接到数据库:使用 MySQLi 或 PDO 建立到数据库的连接。2.查询数据库:执行SQL查询以检索所需的数据。3.获取数据:从查询结果中获取数据。4.填充表单:使用获取的数据填写表单字段。 这是一个使用的简单示例MySQ…

    2025年12月9日
    000
  • 创建专注的领域应用程序 Symfony 方法(返回结果)

    介绍 这是本系列的最后一篇文章。在上一篇文章中,我们创建了一个应用程序服务,它使用 userentitybuilder 服务来创建实体。然后,使用条令实体管理器(这是一个基础设施服务)来持久化和刷新实体。 现在,是时候将结果返回到表示层了。 我想记住,在本系列的所有文章中,我们都将学说实体视为域实体…

    2025年12月9日
    000
  • (我的第一次)安装 Laravel

    有时,尤其是当您刚刚开始职业生涯时,您似乎遵循了指示却一事无成 – 而其他人似乎发现这非常容易。 这可能非常令人沮丧,我想描述一下即使在几十年之后我也经历完全相同的事情的几种方式。所以我在这里,试图详细描述我在努力让事情顺利进行时所犯的错误和失误。这是我关于这个主题的第一篇文章,但我希望…

    2025年12月9日
    000
  • PHP 与 MySQL:终极分步指南

    php 是一种语言,可让您在开发网页时灵活地连接和使用不同的数据库。有不同的数据库,既有商业的,也有免费使用的。其中,mysql 是与 php 并列最常用的数据库。 MySQL 是一个开源、免费使用的关系型数据库管理 系统(关系数据库管理系统)。它是一个快速、简单且高度可扩展的程序 因此可用于小型和…

    2025年12月9日 好文分享
    000

发表回复

登录后才能评论
关注微信