字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA

当前大语言模型 (Large Language Models, LLMs) 如 GPT4 在遵循给定图像的开放式指令方面表现出了出色的多模态能力。然而,这些模型的性能严重依赖于对网络结构、训练数据和训练策略等方案的选择,但这些选择并没有在先前的文献中被广泛讨论。此外,目前也缺乏合适的基准 (benchmarks) 来评估和比较这些模型,限制了多模态 LLMs 的 发展。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA图片

论文:https://arxiv.org/abs/2307.02469网站:https://lynx-llm.github.io/代码:https://github.com/bytedance/lynx-llm

在这篇文章中,作者从定量和定性两个方面对此类模型的训练进行了系统和全面的研究。设置了 20 多种变体,对于网络结构,比较了不同的 LLMs 主干和模型设计;对于训练数据,研究了数据和采样策略的影响;在指令方面,探讨了多样化提示对模型指令跟随能力的影响。对于 benchmarks ,文章首次提出包括图像和视频任务的开放式视觉问答评估集 Open-VQA。

基于实验结论,作者提出了 Lynx,与现有的开源 GPT4-style 模型相比,它在表现出最准确的多模态理解能力的同时,保持了最佳的多模态生成能力。

评估方案

不同于典型的视觉语言任务,评估 GPT4-style 模型的主要挑战在于平衡文本生成能力多模态理解准确性两个方面的性能。为了解决这个问题,作者提出了一种包含视频和图像数据的新 benchmark Open-VQA,并对当前的开源模型进行了全面的评价。

具体来说,采用了两种量化评价方案:

收集开放式视觉问答 (Open-VQA) 测试集,其包含关于物体、OCR、计数、推理、动作识别、时间顺序等不同类别的问题。不同于有标准答案的 VQA 数据集,Open-VQA 的答案是开放式的。为了评估 Open-VQA 上的性能,使用 GPT4 作为判别器,其结果与人类评估有 95% 的一致性。此外,作者采用了由 mPLUG-owl [1] 提供的 OwlEval 数据集来评估模型的文本生成能力,虽然只包含 50 张图片 82 个问题,但涵盖故事生成、广告生成、代码生成等多样问题,并招募人工标注员对不同模型的表现进行打分。

结论

为了深入研究多模态 LLMs 的训练策略,作者主要从网络结构(前缀微调 / 交叉注意力)、训练数据(数据选择及组合比例)、指示(单一指示 / 多样化指示)、LLMs 模型(LLaMA [5]/Vicuna [6])、图像像素(420/224)等多个方面设置了二十多种变体,通过实验得出了以下主要结论:

多模态 LLMs 的指示遵循能力不如 LLMs。例如,InstructBLIP [2] 倾向于不管输入指令如何都生成简短的回复,而其他模型倾向于生成长句子而不考虑指令,作者认为这是由于缺乏高质量和多样化的多模态指令数据所导致的。训练数据的质量对模型的性能至关重要。基于在不同的数据上进行实验的结果,发现使用少量的高质量数据比使用大规模的噪声数据表现得更好。作者认为这是生成式训练和对比式训练的区别,因为生成式训练是直接学习词的条件分布而不是文本和图像的相似度。因此,为了更好的模型性能,在数据方面需要满足两点:1)包含高质量的流畅文本;2)文本和图像内容对齐得较好。任务和提示对零样本 (zero-shot) 能力至关重要。使用多样化任务和指令可以提升模型在未知任务上的零样本生成能力,这与纯文本模型中的观察结果一致。平衡正确性和语言生成能力是很重要的。如果模型在下游任务 (如 VQA) 上训练不足,更可能生成与视觉输入不符的编造的内容;而如果模型在下游任务中训练过多,它则倾向于生成短答案,将无法按照用户的指示生成较长的答案。前缀微调 (prefix-finetuning, PT) 是目前对 LLMs 进行多模态适配的最佳方案。在实验中,prefix-finetuning 结构的模型能更快地提升对多样化指示的遵循能力,比交叉注意力 (cross-attention, CA) 的模型结构更易训练。(prefix-tuning 和 cross-attention 为两种模型结构,具体见 Lynx 模型介绍部分)

Lynx 模型

作者提出了 Lynx(猞猁)—— 进行了两阶段训练的 prefix-finetuning 的 GPT4-style 模型。在第一阶段,使用大约 120M 图像 – 文本对来对齐视觉和语言嵌入 (embeddings) ;在第二阶段,使用 20 个图像或视频的多模态任务以及自然语言处理 (NLP) 数据来调整模型的指令遵循能力。

字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA图片

Lynx 模型的整体结构如上图 Figure 1 所示。

视觉输入经过视觉编码器处理后得到视觉令牌 (tokens) $$W_v$$,经过映射后与指令 tokens $$W_l$$ 拼接作为 LLMs 的输入,在本文中将这种结构称为「prefix-finetuning」以区别于如 Flamingo [3] 所使用的 cross-attention 结构。

此外,作者发现,通过在冻结 (frozen) 的 LLMs 某些层后添加适配器 (Adapter) 可以进一步降低训练成本。

模型效果

作者测评了现有的开源多模态 LLMs 模型在 Open-VQA、Mme [4] 及 OwlEval 人工测评上的表现(结果见后文图表,评估细节见论文)。可以看到 Lynx 模型在 Open-VQA 图像和视频理解任务、OwlEval 人工测评及 Mme Perception 类任务中都取得了最好的表现。其中,InstructBLIP 在多数任务中也实现了高性能,但其回复过于简短,相较而言,在大多数情况下 Lynx 模型在给出正确的答案的基础上提供了简明的理由来支撑回复,这使得它对用户更友好(部分 cases 见后文 Cases 展示部分)。

1. 在 Open-VQA 图像测试集上的指标结果如下图 Table 1 所示:

字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA图片

2. 在 Open-VQA 视频测试集上的指标结果如下图 Table 2 所示。

字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA图片

3. 选取 Open-VQA 中得分排名靠前的模型进行 OwlEval 测评集上的人工效果评估,其结果如上图 Figure 4 所示。从人工评价结果可以看出 Lynx 模型具有最佳的语言生成性能。

字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA图片

4. 在 Mme benchmark 测试中,Perception 类任务获得最好的表现,其中 14 类子任务中有 7 个表现最优。(详细结果见论文附录)

Cases 展示

Open-VQA 图片 cases

字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA

OwlEval cases

字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA

Open-VQA 视频 case

字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA

总结

在本文中,作者通过对二十多种多模态 LLMs 变种的实验,确定了以 prefix-finetuning 为主要结构的 Lynx 模型并给出开放式答案的 Open-VQA 测评方案。实验结果显示 Lynx 模型表现最准确的多模态理解准确度的同时,保持了最佳的多模态生成能力。

以上就是字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/514248.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月9日 02:19:18
下一篇 2025年11月9日 02:26:47

相关推荐

  • html的盒模型详解

    这次给大家带来html的盒模型详解,使用html盒模型的注意事项有哪些,下面就是实战案例,一起来看一下。 1.1. 盒的内容区的尺寸— content width和content height —取决于几个因素: –生成该盒的元素是否设置了’width’或&#82…

    好文分享 2025年12月21日
    000
  • 开源 C++ 框架如何利用社区贡献提升可扩展性和维护性?

    开源 c++++ 框架利用社区贡献增强可扩展性和可维护性:可扩展性:添加新功能模块化设计可插件架构可维护性:改进文档修复错误代码审查实战案例: boost 库通过社区贡献,扩展了新库,持续维护现有库,提供了广泛的文档,提升了可扩展性和可维护性。 开源 C++ 框架を活用:利用社区贡献增强可扩展性和可…

    2025年12月18日
    000
  • 深度了解开源和商业C++框架之间的差异,以做出最佳选择

    在选择 c++++ 框架时,开源和商业选项的区别在于:许可证:开源框架免费且可修改,而商业框架通常受限。支持:开源框架依靠社区支持,而商业框架提供付费专业帮助。特性:开源框架特性广泛,但稳定性各异,而商业框架通常经过维护,功能可靠。成本:开源框架免费,而商业框架需要许可费用,价格可能很高。根据项目需…

    2025年12月18日
    200
  • C++开源框架与商用框架有何异同?

    商用框架需要购买许可证且拥有专业支持,而开源框架免费且可自定义,具备广泛的社区支持。差异还包括:许可证限制:开源框架更宽松,而商用框架更严格。安全性:商用框架通常经过更严格的测试和审核。认证:某些商用框架已通过行业认证。 C++ 开源与商用框架对比 引言 在现代 C++ 开发中,框架已成为必不可少的…

    2025年12月18日
    000
  • 开源 C++ 框架与商业 C++ 框架的最佳实践有何不同?

    开源和商业 c++++ 框架的最佳实践取决于以下关键差异:许可:开源框架使用免费和开源许可证,允许修改和分发,而商业框架受专有许可证限制。支持:开源框架依赖社区支持,而商业框架提供官方支持和服务。定制:开源框架更具可定制性,而商业框架提供预先构建的组件。价格:开源框架免费,而商业框架需要付费许可证。…

    2025年12月18日
    000
  • 开源C++框架与C++库的区别

    框架提供结构和预建组件,加快开发但限制灵活性。库提供特定功能的实现,扩展功能而不影响结构。例如,qt 框架简化了 gui 开发,而 opencv 库提供了计算机视觉功能。 开源 C++ 框架与库的区别 在软件开发中,框架和库是两种不同的概念。两种工具都可以在加快开发时间和提高代码质量方面发挥重要作用…

    2025年12月18日
    000
  • C++框架的开源与商业模式演变趋势如何?

    c++++ 框架开源与商业模式趋势:开源框架兴起,提供免费且强大的工具。商业框架适应竞争,提供附加功能和支持。混合模型流行,结合开源框架和商业附加组件。qt 作为案例,同时提供开源和商业许可选项。应对策略:评估选项、考虑混合模型、与社区互动。 C++ 框架开源与商业模式演变趋势 引言 开源 C++ …

    2025年12月18日
    000
  • 开源C++框架 vs 商业C++框架:专业人士解读

    开源 C++ 框架与商业 C++ 框架:专业人士的视角 在 C++ 应用开发的世界中,开源和商业框架之间存在着激烈的竞争。每个阵营都有其优缺点,并且根据具体项目要求进行明智的选择至关重要。 开源 C++ 框架 优点: 免费且社区支持丰富高度可定制和灵活可见性高,文档齐全 缺点: 可能缺乏专业支持社区…

    2025年12月18日
    000
  • 如何对比不同C++框架的开源性和商业许可模型?

    了解 c++++ 框架的开源性和商业许可模型至关重要:研究开源许可证:框架通常使用 apache 2.0、mit 等开放源代码许可证。了解许可协议以确保符合项目要求。考虑商业许可证:商业许可证授予额外权利和支持,需要支付费用,但可能包括技术支持和定制开发。对比不同框架:通过比较表格了解特定 c++ …

    2025年12月18日
    300
  • 开源和商业C++框架对比:究竟有何优劣?

    开源和商业 c++++ 框架各有优劣:开源框架:免费,社区支持,可定制,支持新技术,但技术支持有限,质量控制受限,许可限制。商业框架:提供全面支持,稳定可靠,组件预配置,企业级支持,但价格昂贵,源代码封闭,供应商锁定。选择建议:开源框架适合需要定制、技术支持要求不高、预算有限的项目;商业框架适合稳定…

    2025年12月18日
    000
  • 开源C++框架与商业C++框架:成本效益分析

    对于 c++++ 框架,开源框架免除前期费用和提供无限次使用,而商业框架则需支付许可或订阅费。开源框架功能有限但可定制,商业框架功能丰富但灵活性较差。初创公司和需要定制的企业倾向于开源框架,而企业机构和需要广泛功能的企业倾向于商业框架。 开源与商业 C++ 框架的成本效益分析 在选择 C++ 框架时…

    2025年12月18日
    000
  • 深度剖析:开源C++框架和商业C++框架的优劣势

    开源框架的优点是成本节约、灵活性、社区支持和透明度,而缺点是技术支持有限、质量不可靠和安全性问题。商业框架的优点是全面的技术支持、更高的质量和可靠性、针对性优化,而缺点是许可费用、限制性许可和供应商锁定。具体选择取决于项目需求,开源框架提供成本节约和灵活性,而商业框架提供全面的支持和可靠性。 深入分…

    2025年12月18日
    000
  • 从业者视角:开源C++框架与商业C++框架对比

    从开发者的角度来看,开源c++++框架因其免费、可定制且社区支持活跃而受青睐。商业c++框架则以官方支持、完善文档和经过验证的质量取胜,但也需要支付许可费并限制可定制性。在选择时,小型项目、研究项目或熟练团队更适合开源框架,而企业级项目或注重可扩展性、稳定性的项目则更适合商业框架。 从业者视角:开源…

    2025年12月18日
    000
  • C++框架大比拼:开源与商业谁更胜一筹?

    对于 c++++ 框架选择,开源与商业各有千秋:开源框架:免费、灵活,社区支持强,但缺乏技术支持和保证。商业框架:提供支持、文档齐全、版本稳定,但需要许可费,限制灵活性,社区支持有限。 C++ 框架大比拼:开源与商业,谁更胜一筹? C++ 广泛应用于打造高性能、高效的应用程序。选择合适的框架至关重要…

    2025年12月18日
    000
  • 开源还是商业?C++框架选用指南

    开源与商业 c++++ 框架优缺点对比:开源框架:免费使用,社区支持,可定制性强,但性能和商业支持有限。商业框架:性能稳定,专业支持,预置组件,但需付费,定制性受限,开源贡献受限。根据项目需求,选择开源框架适用于灵活性、成本优先的项目,而商业框架适用于高性能、稳定性、技术支持要求高的项目。 开源还是…

    2025年12月18日
    000
  • C++框架评估:开源与商业的全面解析

    摘要:开源c++++框架的优点包括免费、社区支持和灵活性,但缺乏支持和安全性问题。商业框架提供专业支持、性能和稳定性,但需要费用、受限的定制和供应商锁定。选择框架时,应考虑应用程序要求、预算、可定制性、社区支持等标准,根据项目需求做出明智的决策。 C++ 框架评估:开源与商业的全面解析 在选择 C+…

    2025年12月18日
    000
  • 特定领域C++框架的开源和商业解决方案比较

    特定领域c++++框架(dsf)旨在简化开发工作并提高应用程序质量。可用的dsf包含开源和商业解决方案。开源解决方案boost:广泛的c++库集合,涵盖字符串处理、网络编程等领域。opencv:计算机视觉和机器学习库,提供图像处理和物体检测算法。商业解决方案the qt framework:跨平台g…

    2025年12月18日
    000
  • C++ 框架的开源选项有哪些?

    c++++ 开发中的开源框架提供了众多优势,包括可重用代码、设计模式和最佳实践。本文重点介绍了五个流行的开源 c++ 框架:qt:用于创建跨平台 gui,提供丰富的组件、布局管理和信号/槽机制。boost:c++ 标准库的扩展,包含容器、算法、并发和字符串处理等功能。wxwidgets:跨平台 gu…

    2025年12月18日
    000
  • 怎么看php源码是不是开源_辨php源码是否开源方法

    要判断PHP源码是否开源,需检查根目录是否有LICENSE等文件并确认其为MIT、GPL等公认许可证;查看.php文件头部注释是否包含License关键词或链接;核实项目托管平台(如GitHub)页面是否标明许可证类型;使用FOSSA、Snyk等工具扫描代码库进行自动化检测;最后依据开源定义四大自由…

    2025年12月13日
    000
  • Microsoft Teams如何设置访客权限 Microsoft Teams外部协作的安全管理

    首先登录Microsoft 365管理中心启用Teams访客访问功能,接着在Azure AD中配置目录范围与信息可见性限制,最后通过敏感度标签、审核日志、DLP策略及文件共享设置实施沟通与内容安全管控,实现外部协作的安全管理。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 D…

    2025年12月6日 科技
    000

发表回复

登录后才能评论
关注微信