flageval
-
智源发布FlagEval「百模」评测结果,丈量模型生态变局
智源研究院发布2024年下半年大模型评测结果,评估涵盖100余个开源及闭源模型。此次评测在5月份评估基础上,扩展了任务类型,新增数据处理、高级编程、工具调用及金融量化交易场景评估等;并首次采用模型辩论方式进行对比评估。 评测结果显示,下半年大模型发展更注重综合能力提升及实际应用。多模态模型发展迅速,…
*本站广告为第三方投放,如发生纠纷,请向本站索取第三方联系方式沟通
智源研究院发布2024年下半年大模型评测结果,评估涵盖100余个开源及闭源模型。此次评测在5月份评估基础上,扩展了任务类型,新增数据处理、高级编程、工具调用及金融量化交易场景评估等;并首次采用模型辩论方式进行对比评估。 评测结果显示,下半年大模型发展更注重综合能力提升及实际应用。多模态模型发展迅速,…