一半

  • 你正在做的大模型评测,可能有一半都是无用功

    多模态ai模型评估:冗余测试的系统性分析 近期,上海AI Lab、上海交大和浙江大学的研究团队发现,当前流行的多模态大模型基准测试存在大量冗余。该团队对20多个主流基准和100多个模型进行了系统性分析,结果显示,许多测试的效率低下,存在大量重复劳动。 △图表 1 Quick Look 研究发现,减少…

    2025年11月18日
    000
关注微信