多元推理

多元推理刷新「人类的最后考试」记录，o3-mini(high)准确率最高飙升到37％

近期，deepseek r1推理模型在全球社交媒体引发热议，其类人的深度思考能力令人瞩目。然而，deepseek r1、openai o1和o3等模型在一些高难度基准测试中表现欠佳，例如国际数学奥林匹克竞赛（imo）组合问题、抽象推理语料库（arc）难题和人类的最后考试（hle）问题（论文链接）。例…

程序猿
2025年11月1日 • 用户投稿
0000

关注微信