flageval

  • 智源发布FlagEval「百模」评测结果,丈量模型生态变局

    智源研究院发布2024年下半年大模型评测结果,评估涵盖100余个开源及闭源模型。此次评测在5月份评估基础上,扩展了任务类型,新增数据处理、高级编程、工具调用及金融量化交易场景评估等;并首次采用模型辩论方式进行对比评估。 评测结果显示,下半年大模型发展更注重综合能力提升及实际应用。多模态模型发展迅速,…

    2025年11月6日 科技
    000
关注微信