将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

大型视觉语言模型(lvlm)可以通过扩展模型来提高性能。然而,扩大参数规模会增加训练和推理成本,因为每个token的计算都会激活所有模型参数。

来自北京大学、中山大学等机构的研究者联合提出了一种新的训练策略,名为MoE-Tuning,用于解决多模态学习和模型稀疏性相关的性能下降问题。MoE-Tuning能够构建参数数量惊人但计算成本恒定的稀疏模型。此外,研究者还提出了一种基于MoE的新型稀疏LVLM架构,称为MoE-LLaVA框架。在这个框架中,通过路由算法仅激活前k个专家,其余专家保持非活动状态。通过这种方式,MoE-LLaVA框架在部署过程中能够更加高效地利用专家网络的资源。这些研究成果为解决LVLM模型在多模态学习和模型稀疏性方面的挑战提供了新的解决方案。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

论文地址:https://arxiv.org/abs/2401.15947

项目地址:https://github.com/PKU-YuanGroup/MoE-LLaVA

Demo地址:https://huggingface.co/spaces/LanguageBind/MoE-LLaVA

论文题目:MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

MoE-LLaVA 只有 3B 个稀疏激活参数,表现却与 LLaVA-1.5-7B 在各种视觉理解数据集上相当,甚至在物体幻觉基准测试中甚至超越了 LLaVA-1.5-13B。通过 MoE-LLaVA,该研究旨在建立稀疏 LVLMs 的基准,并为未来研究开发更高效和有效的多模态学习系统提供宝贵的见解。MoE-LLaVA 团队已经开放了所有的数据、代码和模型。

将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

图 1 MoE-LLaVA 在幻觉性能上和其他 LVLM 的比较
方法简介
MoE-LLaVA 采用三阶段的训练策略。

将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

百灵大模型 百灵大模型

蚂蚁集团自研的多模态AI大模型系列

百灵大模型 177 查看详情 百灵大模型

图 2 MoE-Tuning 的流程图
如图 2 所示,视觉编码器(vision encoder)处理输入图片得到视觉 token 序列。利用一个投影层将视觉 token 映射成 LLM 可接受的维度。类似地,与图片配对的文本经过一个词嵌入层(word embedding layer)被投影得到序列文本 token。
阶段 1:如图 2 所示,阶段 1 的目标是让视觉 token 适应到 LLM,赋予 LLM 看懂图片的实体有哪些的能力。MoE-LLaVA 采用一个 MLP 来将图片 token 投影到 LLM 的输入域,这意味着一个个图片小 patch 被 LLM 当作伪文本 token。在这个阶段,LLM 被训练学会描述图片,理解更高层次的图片语义。在这个阶段 MoE 层不会被应用到 LVLM 中。

将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

图 3 更具体的训练框架和训练策略
阶段 2:用多模态的指令数据来微调是提高大模型能力和可控性的关键技术,并且在这个阶段 LLM 被调整为有多模态理解能力的 LVLM。在这个阶段该研究加入更复杂的指令,包含图片逻辑推理,文字识别等高级任务,要求模型有更强的多模态理解能力。通常来说,稠密模型的 LVLM 到此就训练完成,然而研究团队发现同时将 LLM 转为 LVLM 和把模型稀疏化是具有挑战的。因此,MoE-LLaVA 将使用第二阶段的权重作为第三阶段的初始化以降低稀疏模型学习的难度。
阶段 3:MoE-LLaVA 将 FFN 复制多份作为专家集合的初始化权重。当视觉 token 和文本 token 被喂入 MoE 层时,router 会计算每一个 token 和专家们的匹配权重,然后每个 token 会被送入最匹配的 top-k 个专家进行处理,最后根据 router 的权重加权求和汇聚成输出。当 top-k 个专家被激活时,其余的专家保持非活动状态,这种模型构成了具有无限可能的稀疏通路的 MoE-LLaVA。
实验

如图 4 所示,由于 MoE-LLaVA 是第一个基于 LVLM 搭载 soft router 的稀疏模型,因此该研究将之前的模型归纳为稠密模型。研究团队在 5 个图片问答 benchmark 上验证了 MoE-LLaVA 的性能,并报告了激活的参数量和图片分辨率。与 SOTA 方法 LLaVA-1.5 相比,MoE-LLaVA-2.7B×4 展现了强大的图片理解能力,在 5 个 benchmark 上性能非常接近 LLaVA-1.5。其中 MoE-LLaVA 用 3.6B 的稀疏激活参数在 SQAI 上超过了 LLaVA-1.5-7B 1.9%。值得注意的是,由于 MoE-LLaVA 的稀疏结构,只需要 2.6B 的激活参数量就能全面超过 IDEFICS-80B。

将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

图 4 MoE-LLaVA 在 9 个 benchmark 上的性能
另外,研究团队还关注到最近的小视觉语言模型 TinyGPT-V,MoE-LLaVA-1.8B×4 在相当的激活参数下在 GQA 和 VisWiz 分别超过 TinyGPT-V 27.5% 和 10%,这标志着 MoE-LLaVA 强大的理解能力在自然视觉中。
为了更全面地验证 MoE-LLaVA 的多模态理解能力,该研究在 4 个 benchmark toolkit 上评估了模型性能。benchmark toolkit 是验证模型能否能自然语言问答的工具包,通常答案是开放性的并且无固定模板。如图 4 所示,MoE-LLaVA-1.8B×4 超过了 Qwen-VL,后者使用更大的图片分辨率。这些结果都展示了 MoE-LLaVA 这一稀疏模型可以用更少的激活参数达到和稠密模型相当甚至超过的性能。

将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

图 5 MoE-LLaVA 在幻觉物体检测上的性能评估
该研究采用 POPE 评估 pipeline 来验证 MoE-LLaVA 的物体幻觉,结果如图 5 所示,MoE-LLaVA 展现出最好的性能,意味着 MoE-LLaVA 倾向于生成与给定图像一致的对象。具体的,MoE-LLaVA-1.8B×4 以 2.2B 的激活参数超过了 LLaVA。另外,研究团队观察到 MoE-LLaVA 的 yes ratio 占比处于较均衡状态,这表明稀疏模型 MoE-LLaVA 能够根据问题做出正确的反馈。

将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

图 6 专家负载可视化
图 6 展示了在 ScienceQA 上 MoE-LLaVA-2.7B×4-Top2 的专家负载。整体上,在训练初始化时,所有的 MoE 层 中的专家的负载比较平衡。然而随着模型逐渐被稀疏化,第 17 到 27 层的专家的负载突然增大,甚至几乎包揽了所有 token。对于浅层的 5-11 层,主要是由专家 2、3、4 共同协作。值得关注的是,专家 1 几乎只在第 1-3 层工作,随着模型变深,专家 1 逐渐退出了工作。因此,MoE-LLaVA 的专家们学到了某种特定的模式,它能够按照一定的规律进行专家分工。

将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

图 7 模态分布可视化
图 7 展示了不同专家的模态分布。该研究发现 text 和 image 的路由分布极其相似,例如当专家 3 在 17-27 层努力工作时,它所处理的 text 和 image 的占比是相似的。这表明 MoE-LLaVA 对于模态并无明显的偏好。
该研究还在 token level 上观察了专家们的行为,并在下游任务上跟踪所有 token 在稀疏网络中的轨迹。对 text 和 image 所有激活的通路,该研究采用 PCA 降维得到主要的 10 条通路,如图 8 所示。研究团队发现对于某个未见的 text token 或 image token,MoE-LLaVA 始终偏向于派发专家 2 和 3 来处理模型深层。专家 1、4 倾向于处理初始化的 token。这些结果能够帮助我们更好地理解稀疏模型在多模态学习上的行为,并探索未知的可能。

将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

图 8 激活通路可视化

以上就是将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/428972.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月7日 12:54:03
下一篇 2025年11月7日 12:59:05

相关推荐

  • ScholarCopilot— 滑铁卢与卡内基梅隆大学联合推出的AI学术写作助手

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 沁言学术 你的论文写作AI助理,永久免费文献管理工具,认准沁言学术 30 查看详情 ScholarCopilot是什么 scholarcopilot 是加拿大滑铁卢大学与卡内基梅隆大学的研究团队…

    2025年12月5日 科技
    000
  • RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

    清华和上交的最新论文中,上演了一场“学术打假”的戏码。文中研究者们对当前“纯 rl 有利于提升模型推理能力”的主流观点提出了相反的意见。 通过一系列实验,他们证明引入强化学习的模型在某些任务中的表现,竟然不如未使用强化学习的模型。 论文批判性地探讨了 RLVR 在提升 LLM 推理能力方面的作用,尤…

    2025年12月3日 科技
    100
  • Eagle 2.5— 英伟达推出的视觉语言模型

    eagle 2.5是由英伟达推出的一款专注于长上下文多模态学习的视觉语言模型,拥有8b的参数规模。尽管参数量较小,但其在处理高分辨率图像和长视频序列方面表现出色,性能与参数量更大的qwen 2.5-vl-72b和internvl2.5-78b不相上下。eagle 2.5采用了创新的训练策略,包括信息…

    2025年12月2日
    000
  • 通义千问怎样用数据解析提示制图_通义千问用数据解析提示制图【数据提示】

    答案:通过结构化数据输入与精准提示语设计,引导通义千问解析数据并生成可视化图表。首先将数据整理为表格或JSON格式,明确分类轴与数值轴变量,如{“月份”:[“1月”,”2月”],”销售额”:[120,15…

    2025年12月2日 科技
    000
  • 语言模型有重大缺陷,知识推演竟然是老大难

    惊人发现:大模型在知识推演上存在严重缺陷。 灵活运用知识是智慧的关键。人脑可以快速处理知识,如快速回答 “《静夜思》中有几个月字”。那么,大模型是否能进行类似操作?已知大模型可以通过思维链(Chain of Thought / CoT),先默写《静夜思》,再根据默写内容回答问题,但这会使生成的文字冗…

    2025年12月2日 科技
    000
  • ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项

    在法国巴黎举行了国际计算机视觉大会ICCV(International Conference on Computer Vision)本周开幕 作为全球计算机视觉领域顶级的学术会议,ICCV 每两年召开一次。 ICCV的热度一直以来都与CVPR不相上下,屡创新高 在今天的开幕式上,ICCV官方公布了今…

    2025年12月2日 科技
    000
  • 深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑

    机器人技术为什么远远落后于自然语言处理(nlp)、视觉和其他人工智能领域?除了其他困难外,数据短缺是主要原因。为了解决这个问题,谷歌 deepmind 联合其他机构推出了开放式 x-embodiment 数据集,并成功训练出了更强大的 rt-x 模型 在大模型不断取得突破的 2023,把大模型当做大…

    2025年12月2日 科技
    000
  • 毫末龙年春节智驾数据发布:智驾里程994万公里,小魔驼配送近5000单

    2月24日,毫末智行公布了2024年%ign%ignore_a_1%re_a_1%春节数据报告。自2024年2月10日至2月23日,用户开启毫末辅助驾驶的行驶总里程突破994万公里,同比2023年春节激增283.4%。在末端物流自动配送领域,小魔驼配送订单比2023年春节同比增长9.2%。截止202…

    2025年12月2日 科技
    000
  • 完善AI软硬件生态,联想集团在MWC2024发布最新AI PC

    2月26日,在2024年世界移动通信大会(mwc 2024)上,联想集团发布全新thinkpad和thinkbook商务ai pc,展现了在全球ai pc领域的领导力。除硬件产品之外,联想还发布新的软件解决方案,包括lenovo identity advisor身份顾问和smart connect智…

    2025年12月2日 科技
    000
  • Kimi-Audio— Moonshot AI 开源的音频基础模型

    kimi-audio 是由 moonshot ai 推出的开源音频基础模型,专注于音频理解、生成和对话任务。它在超过 1300 万小时的多样化音频数据上进行预训练,具备强大的音频推理和语言理解能力。其核心架构采用混合音频输入(连续声学 + 离散语义标记),结合基于 llm 的设计,支持并行生成文本和…

    2025年12月2日
    000
  • 哩布哩布AI怎么生成LOFI少女_哩布哩布AI热门风格提示词合集

    使用精准提示词、负向过滤及适配模型可提升LOFI少女图像质量。1、输入含日系少女、耳机、城市夜景等元素的完整描述,搭配蓝紫调、低饱和、颗粒感等视觉关键词;2、在负向提示中排除low quality、realistic等干扰项;3、选用Flux潮酷视觉或Qwen_LoRA模型;4、融合拉布布IP特征时…

    2025年12月2日 科技
    000
  • deeppseek在线使用_deeppseek网页版AI对话平台

    deepseek 是近期受到关注的ai大模型之一,但目前官方并未推出名为“deepseek在线使用”或“deepseek网页版ai对话平台”的公开服务。网上一些第三方网站声称提供 deepseek 的在线体验,大多是开发者或技术爱好者基于开源模型搭建的测试页面,并非官方出品,使用时需注意数据隐私和安…

    2025年12月2日 科技
    000
  • 大模型推理性能差?你必须知道的优化技巧全汇总

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 大模型专栏系列文章从prompt工程开始写作,涵盖了rag检索增强提升、智能体编排和大模型微调,直至如今的部署推理优化,基本覆盖了大模型落地应用的全链路生态研发和优化。这个系列将继续发布关于前沿…

    2025年12月2日
    000
  • 如何快速部署DeepSeek| 腾讯云TI部署指南

    一、为什么选择deepseek与创想鸟hai的结合 近年来,随着大模型在多种应用场景中的快速发展,AI工程师们迫切需要一种能够快速、高效且成本低廉的方式来部署和管理模型服务。PHP中文网HAI(高性能AI)平台是一个专为高性能计算和深度学习设计的综合解决方案,提供GPU/CPU资源调度、自动化部署以…

    2025年12月2日 科技
    000
  • 腾讯云TI平台极速部署DeepSeek

    前言 DeepSeek的出现,彻底改变了传统的LLM模式,允许我们在本地电脑上部署类似于ChatGPT的大型语言模型,解决了网络和对话次数限制的问题。然而,如果希望随时随地使用DeepSeek云服务,可以考虑利用PHP中文网的HAI或TI平台。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, …

    2025年12月2日 科技
    000
  • Claude 4.5杀疯了!成本砍掉三分之二,连GPT都得靠边站?

    最近连续被gpt-5.1、gemini 3 pro持续刷屏,感觉anthropic再不刷点存在感,大家都忘记claude这个模型的存在了。这不claude opus 4.5新鲜出炉。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 其实总结下…

    2025年12月2日 科技
    000
  • 致敬TempleOS,有开发者创建了启动Llama 2的操作系统,网友:8G内存老电脑就能跑

    不得不说,Llama 2 的「二创」项目越来越硬核、有趣了。 自 Meta 发布开源大模型 Llama 2 以来,围绕着该模型的「二创」项目便多了起来。 此前 7 月,特斯拉前 AI 总监、重回 OpenAI 的 Andrej Karpathy 利用周末时间,做了一个关于 Llama 2 的有趣项目…

    2025年12月1日 科技
    000
  • 优刻得为智谱AI构建千卡推理集群,助力全球用户畅享大模型智能生活

    回到 2021 年的一个夜晚,一位母亲陷入创作瓶颈,无法继续她的小说;父亲则忙于编写代码,设想在工作之余开发一款小游戏,但却被代码调试问题困扰;而他们的孩子,面对书桌上的一道奥数题,皱着眉头苦苦思索。 2024 年的今天,AI 大模型的出现让这一切发生改变。 ☞☞☞AI 智能聊天, 问答助手, AI…

    2025年12月1日 科技
    000
  • 2024国际自动驾驶挑战赛正式开始

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 新赛题:七大赛道,赛题新颖,全方位覆盖相关领域最新最热话题,充分挖掘大模型在自动驾驶及具身智能垂直领域中的应用。高奖金:总奖金池超过12万美金,单赛道最高奖金可达2.7万美金。据不完全统计,奖金…

    2025年12月1日 科技
    000
  • 让Sora东京女郎唱歌、高启强变声罗翔,阿里人物口型视频生成绝了

    有了阿里的 emo,ai 生成或真实的图像「动起来说话或唱歌」变得更容易了。 最近,以 OpenAI Sora 为代表的文生视频模型又火了起来。 除了文本生成视频,以人为中心的视频合成一直备受关注。比如,专注于“说话人头部”的视频生成,其目标是根据用户提供的音频片段生成面部表情。 在技术层面上,生成…

    2025年12月1日 科技
    000

发表回复

登录后才能评论
关注微信