多元推理刷新「人类的最后考试」记录,o3-mini(high)准确率最高飙升到37%

近期,deepseek r1推理模型在全球社交媒体引发热议,其类人的深度思考能力令人瞩目。然而,deepseek r1、openai o1和o3等模型在一些高难度基准测试中表现欠佳,例如国际数学奥林匹克竞赛(imo)组合问题、抽象推理语料库(arc)难题和人类的最后考试(hle)问题(论文链接)。例如,在hle测试中,主流推理模型的准确率普遍低于10%。

为提升模型在这些挑战性基准上的表现,波士顿大学、NotBadMath.AI和谷歌等机构的研究人员提出了一种创新的多元推理方法,该方法在测试阶段整合多种模型和技术。实验结果表明,该方法在验证数学和编码问题以及其他问题的拒绝采样中高效便捷。

具体而言,研究人员利用交互式定理证明器Lean自动验证IMO问题的答案正确性,通过代码自动验证ARC谜题,并采用best-of-N算法有效解答HLE问题。实验结果显示,该方法将IMO组合问题的准确率从33.3%提升至77.8%,HLE问题的准确率从8%提升至37%,并成功解决了948名人类无法解答的80% ARC谜题以及o3 high模型无法解答的26.5%的ARC谜题。

研究人员指出,通过优化代理图表示、调整提示词、代码和数据集,以及运用测试时模拟、强化学习和具有推理反馈的元学习等技术,可以进一步增强推理模型的泛化能力。此外,他们还发现了基础语言模型的第三个经验性扩展规律:多种模型和方法的数量与可验证问题性能之间存在正相关关系。前两个规律分别为:模型大小、数据大小与损失之间的关系;模型性能与测试时算力之间的关系。

方法概述

研究人员的主要贡献包括:

多元推理 (diverse inference): 测试时,该方法整合多个模型、方法和代理,而非依赖单一模型。任何正确的解决方案都将经过自动验证。具体方法包括:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

喵记多 喵记多

喵记多 – 自带助理的 AI 笔记

喵记多27 查看详情 喵记多 IMO:采用8种不同方法(LEAP、Z3、RTO、BoN、SC、MoA、MCTS、PV),并将英语题目自动形式化为Lean进行验证。ARC:合成代码解决方案作为单元测试进行验证。HLE:使用best-of-N作为不完美验证器。

测试时模拟和强化学习: 推理过程中生成额外的特定问题信息:

IMO:将组合问题转化为交互式游戏环境,利用组合搜索或深度强化学习寻找部分结果或边界。ARC:通过合成代码探索谜题转换,去除错误解决方案并优化候选方案。

研究人员发现,使用训练好的验证器进行搜索通常优于监督微调,这促使他们通过测试时模拟和强化学习生成额外数据,从而成功证明2024年IMO组合题并解决困难的ARC谜题。下图1展示了求解IMO组合题的方法架构,包含编码、模拟、深度强化学习和解码四个阶段。图片

代码图的元学习: 利用LLM和其他工具追踪pipeline运行,生成超参数、提示词、代码标题和数据的A/B测试,并自适应地修改代理图。

实验结果

研究人员对IMO组合问题、ARC谜题和HLE问题进行了广泛评估。结果表明,多元推理方法显著提升了模型在这些难题上的准确率。具体结果见文中图表。图片图片图片图片图片图片 更多细节请参考论文。

以上就是多元推理刷新「人类的最后考试」记录,o3-mini(high)准确率最高飙升到37%的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/168460.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月1日 01:12:34
下一篇 2025年11月1日 01:13:33

相关推荐

  • Python中如何实现工厂模式?

    在python中实现工厂模式可以通过创建一个统一的接口来创建不同类型的对象。具体步骤如下:1.定义一个基础类和多个继承类,如vehicle、car、plane和train。2.创建一个工厂类vehiclefactory,使用create_vehicle方法根据类型参数返回相应的对象实例。3.通过工厂…

    2025年12月14日
    000
  • python中r是什么意思 python原始字符串前缀

    在python中,r或r前缀用于定义原始字符串,忽略所有转义字符,让字符串按字面意思解释。1) 适用于处理正则表达式和文件路径,避免转义字符误解。2) 不适用于需要保留转义字符的情况,如换行符。使用时需谨慎检查,以防意外的输出。 在Python中,r或R前缀用于定义原始字符串(raw string)…

    2025年12月14日
    000
  • python中pop()函数的用法 python列表pop元素移除方法详解

    pop()函数在python中用于从列表中移除并返回指定位置的元素。1) 不指定索引时,pop()默认移除并返回列表的最后一个元素。2) 指定索引时,pop()移除并返回该索引位置的元素。3) 使用时需注意索引错误、性能问题、替代方法和列表的可变性。 在Python中,pop()函数是列表操作中一个…

    2025年12月14日
    000
  • 如何用Python进行图像处理?

    python进行图像处理主要使用pillow和opencv两大库。pillow适合简单图像处理,如加水印,代码简洁易用;opencv适用于复杂图像处理和计算机视觉,如边缘检测,性能优越但需注意内存管理。 用Python进行图像处理?这可是个有趣且实用的主题!Python在图像处理领域有着强大的工具和…

    2025年12月14日
    000
  • Python中怎样实现主成分分析?

    在python中实现pca可以通过手动编写代码或使用scikit-learn库。手动实现pca包括以下步骤:1)中心化数据,2)计算协方差矩阵,3)计算特征值和特征向量,4)排序并选择主成分,5)投影数据到新空间。手动实现有助于深入理解算法,但scikit-learn提供更便捷的功能。 在Pytho…

    2025年12月14日
    000
  • 怎样用Python计算对数?

    在Python中计算对数是一件非常简单却又充满趣味的事情。让我们从最基本的问题开始:怎样用Python计算对数? 用Python计算对数的基本方法 Python的math模块提供了计算对数的函数。让我们来看一个简单的例子: import math# 计算自然对数(底数为e)x = 10natural…

    2025年12月14日
    000
  • Python中如何使用pdb调试器?

    在python中使用pdb调试器可以大大提升调试效率。1) 在代码中插入断点或运行时启动pdb。2) 使用n、s、c、p等命令控制执行流程。3) 对于多线程和条件断点,使用thread和b命令。4) 清除断点用cl命令,跳转用j命令。5) 优化性能时减少不必要断点,使用条件断点,避免print语句。…

    2025年12月14日
    000
  • Python中如何使用TensorFlow?

    在python中使用tensorflow可以通过以下步骤:1. 安装tensorflow,使用pip install tensorflow。2. 编写代码,构建并训练模型,如使用keras api创建线性回归模型。tensorflow的优势在于其灵活性和计算图机制,辅以tensorboard等工具,…

    2025年12月14日
    000
  • 如何在Python中处理API响应?

    在python中处理api响应的步骤包括:1.发送请求并接收响应,使用requests库;2.检查状态码,确保数据有效;3.解析响应数据,通常为json或xml格式;4.进行错误处理和数据验证,避免程序崩溃;5.优化性能,使用缓存、异步请求或批量请求;6.确保安全性,使用环境变量存储敏感信息。 处理…

    2025年12月14日
    000
  • Python中如何获取环境变量?

    在python中获取环境变量使用os模块的os.environ字典。1. 使用os.environ.get()方法获取变量,如os.environ.get(‘my_var’, ‘default_value’)。2. 注意安全性,不要泄露敏感信息。3. …

    2025年12月14日
    000
  • 如何用Python实现一个简单的命令行工具?

    使用python创建命令行工具可以通过argparse模块实现。1) 创建基本框架,使用argparse处理参数。2) 扩展工具时,关注用户体验、错误处理和扩展性。3) 添加子命令和错误处理,提升工具的复杂度和鲁棒性。4) 实际项目中,注意性能优化、测试和文档编写。 用Python实现一个简单的命令…

    2025年12月14日
    000
  • Python中如何定义嵌套类?

    在python中,嵌套类是通过在外部类中定义内部类实现的。1.定义嵌套类:在外部类中定义内部类,如class outer: class inner: pass。2.实例化:通过外部类的实例创建内部类的实例,如outer = outer(); inner = outer.inner()。这种结构有助于…

    2025年12月14日
    000
  • Python中如何实现责任链模式?

    在python中实现责任链模式并不难,但要优雅高效需要技巧。首先,责任链模式将请求发送者和接收者解耦,适用于日志记录、请求处理等场景。其实现步骤包括:1.定义基础handler类;2.创建具体处理器如validationhandler、discounthandler和inventoryhandler…

    2025年12月14日
    000
  • python中的int是什么意思 python整数类型int的进制转换

    python中int类型支持任意精度的整数。1.将十进制转换为二进制使用bin(),八进制使用oct(),十六进制使用hex()。2.从其他进制转换为十进制使用int(),需指定进制。进制转换在处理不同格式数据时非常有用,但需注意处理大数时速度和错误处理。 在Python中,int代表整数类型,它是…

    2025年12月14日
    000
  • Python中怎样定义函数?

    在python中定义函数使用def关键字,后跟函数名和参数列表,函数体需缩进, 可选返回值。1. 基本定义:def greet(name): return f”hello, {name}!”. 2. 默认参数:def greet(name, greeting=”h…

    2025年12月14日
    000
  • 怎样在Python中处理Excel文件?

    在python中处理excel文件可以使用openpyxl和pandas库。1. 使用pandas读取excel文件:df = pd.read_excel(‘example.xlsx’, sheet_name=’sheet1′)。2. 使用openpy…

    2025年12月14日
    000
  • Python中如何定义混入类?

    混入类在python中是一种灵活且强大的代码复用方式。1.混入类提供一组方法,供其他类使用,不影响主要继承关系。2.它们通常不包含构造函数,不应直接实例化。3.混入类可组合使用,如loggermixin和validatormixin。4.它们应保持简单,不含状态,命名以mixin结尾。5.混入类适用…

    2025年12月14日
    000
  • Python中如何实现if条件判断?

    在python中,if条件判断是实现逻辑分支的基本工具。1)基本用法:使用if、elif和else处理不同条件。2)多条件判断:使用and/or运算符,如age > 18 and income > 30000。3)嵌套if:用于复杂逻辑,但需避免过度嵌套。4)条件表达式:如”…

    2025年12月14日
    000
  • Python中如何处理异常和错误?

    在python中,异常处理通过try、except、else和finally块实现。1)使用try捕获异常,2)except处理特定异常,3)else在无异常时执行,4)finally总是执行。 在Python中处理异常和错误是编程中不可或缺的一部分。异常处理不仅仅是捕获错误,更是对程序健壮性的保障…

    2025年12月14日
    000
  • 怎样用Python创建生成器?

    在python中,可以通过生成器函数或生成器表达式创建生成器。1. 生成器函数使用yield关键字,如def countdown(n): while n > 0: yield n; n -= 1。2. 生成器表达式使用圆括号,如(x**2 for x in range(10))。生成器节省内存…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信