flageval

智源发布FlagEval「百模」评测结果，丈量模型生态变局

智源研究院发布2024年下半年大模型评测结果，评估涵盖100余个开源及闭源模型。此次评测在5月份评估基础上，扩展了任务类型，新增数据处理、高级编程、工具调用及金融量化交易场景评估等；并首次采用模型辩论方式进行对比评估。评测结果显示，下半年大模型发展更注重综合能力提升及实际应用。多模态模型发展迅速，…

程序猿
2025年11月6日 • 用户投稿
0000

关注微信