多元推理
-
多元推理刷新「人类的最后考试」记录,o3-mini(high)准确率最高飙升到37%



近期,deepseek r1推理模型在全球社交媒体引发热议,其类人的深度思考能力令人瞩目。然而,deepseek r1、openai o1和o3等模型在一些高难度基准测试中表现欠佳,例如国际数学奥林匹克竞赛(imo)组合问题、抽象推理语料库(arc)难题和人类的最后考试(hle)问题(论文链接)。例…



近期,deepseek r1推理模型在全球社交媒体引发热议,其类人的深度思考能力令人瞩目。然而,deepseek r1、openai o1和o3等模型在一些高难度基准测试中表现欠佳,例如国际数学奥林匹克竞赛(imo)组合问题、抽象推理语料库(arc)难题和人类的最后考试(hle)问题(论文链接)。例…