一半

用户投稿

你正在做的大模型评测，可能有一半都是无用功

多模态ai模型评估：冗余测试的系统性分析近期，上海AI Lab、上海交大和浙江大学的研究团队发现，当前流行的多模态大模型基准测试存在大量冗余。该团队对20多个主流基准和100多个模型进行了系统性分析，结果显示，许多测试的效率低下，存在大量重复劳动。 △图表 1 Quick Look 研究发现，减少…

程序猿
2025年11月18日
1000

关注微信