多模态版Llama2上线，Meta发布AnyMAL

程序猿 • 2025年11月8日 14:22:37 • 科技 • 阅读 0

在多个基准测试中均刷新了业界最好的 zero-shot 性能。

一个统一的模型，可以对不同模态输入内容（文本、图像、视频、音频、IMU 运动传感器数据）实现理解，并生成文本响应，技术基于 Llama 2，来自 Meta。

昨天，多模态大模型 AnyMAL 的研究吸引了 AI 研究社区的关注。

大型语言模型（LLM）以其巨大的规模和复杂性而闻名，它极大地增强了机器理解和表达人类语言的能力。LLM 的进步使视觉语言领域有了显著进步，弥合了图像编码器和 LLM 之间的差距，将它们的推理能力结合起来。先前的多模态 LLM 研究集中在结合文本和另一种模态的模型上，如文本和图像模型，或者集中在非开源的专有语言模型上。

如果有一种更好的方法能够实现多模态功能，将各种模态能够嵌入在LLM中使用，这会给我们带来不同的体验吗？

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

输出示例

为了解决这个问题，来自Meta的研究人员最近推出了AnyMAL（Any-Modality Augmented Language Model）。这是一个经过训练的多模态编码器集合，可以将来自各种模态（包括图像、视频、音频和IMU运动传感器数据）的数据转换为LLM的文本嵌入空间

论文地址：https://huggingface.co/papers/2309.16058

根据说明，该研究的主要贡献如下所示：

为构建多模态 LLM 提出了一种高效、可扩展的解决方案。本文提供了在大型数据集上预先训练的投影层，这些数据集包含多种模态（例如，2 亿张图像、220 万段音频、50 万 IMU 时间序列、2800 万段视频），所有数据集都与同一个大模型（LLaMA-2- 70B-chat）对齐，从而实现了交错式多模态上下文提示。

本研究使用跨三种模式（图像、视频和音频）的多模态指令集对模型进行了进一步微调，涵盖了简单问答（QA）领域以外的各种不受限制的任务。该数据集包含高质量的人工收集指令数据，因此本研究将其作为复杂多模态推理任务的基准

本文最佳模型在各种任务和模式的自动和人工评估中取得了很好的零误差性能，相较于现有文献中的模型，在 VQAv2 上的相对准确率提高了7.0%，在零误差 COCO 图像字幕上提高了8.4% 的 CIDEr，在 AudioCaps 上提高了14.5% 的 CIDEr，创造了新的 SOTA

方法

方法概览

预训练模态对齐的内容需要进行改写

通过使用配对的多模态数据（包括特定的模态信号和文本叙述），本研究对LLM进行了预训练，以实现多模态理解能力，如图2所示。具体而言，我们为每个模态训练了一个轻量级适配器，将输入信号投射到特定LLM的文本标记嵌入空间中。这样，LLM的文本标记嵌入空间就变成了一个联合的标记嵌入空间，其中标记可以代表文本或其他模态

关于图像对齐的研究，我们使用了LAION-2B数据集的一个干净子集，并采用了CAT方法进行过滤，对任何可检测到的人脸进行了模糊处理。而对于音频对齐的研究，则使用了AudioSet（2.1M）、AudioCaps（46K）和CLOTHO（5K）数据集。此外，我们还使用了Ego4D数据集进行IMU和文本的对齐（528K）

对于大型数据集，要将预训练扩展到70B参数模型需要大量资源，通常需要使用FSDP封装器在多个GPU上对模型进行分片。为了有效地扩展训练规模，本文在多模态设置中实施了量化策略（4位和8位），其中冻结了模型的LLM部分，只有模态tokenizer是可训练的。这种方法将内存需求缩小了一个数量级。因此，70B AnyMAL能够在单个80GB VRAM GPU上就完成训练，batch size为4。与FSDP相比，本文提出的量化方法只使用了GPU资源的一半，却实现了相同的吞吐量

利用多模态指令数据集进行微调的意思是使用多种模态的指令数据集来进行微调

为了进一步提高模型对不同输入模态的指令跟随能力，研究利用多模态指令调整（MM-IT）数据集进行了额外的微调。具体来说，我们将输入连接为 []，这样响应目标就同时以文本指令和模态输入为基础。研究对以下两种情况进行消减：（1）在不改变 LLM 参数的情况下训练投影层；或（2）使用低级适应（Low-Rank Adaptation）进一步调整 LM 行为。研究同时使用人工收集的指令调整数据集和合成数据。

百灵大模型

蚂蚁集团自研的多模态AI大模型系列

177 查看详情

实验及结果

图像标题生成是一种人工智能技术，用于自动为图像生成相应的标题。这项技术结合了计算机视觉和自然语言处理的方法，通过分析图像的内容和特征，以及对语义和语法的理解，生成与图像相关的描述性标题。图像标题生成在许多领域有广泛的应用，包括图像搜索、图像标注、图像检索等。通过自动化生成标题，可以提高图像的可理解性和搜索引擎的准确性，为用户提供更好的图像检索和浏览体验

表 2 显示了在 COCO 和标有「详细描述」任务（MM-IT-Cap）的 MM-IT 数据集子集上的零样本图像字幕生成性能。可以看出， AnyMAL 变体在这两个数据集上的表现都明显优于基线。值得注意的是，AnyMAL-13B 和 AnyMAL-70B 变体的性能没有明显差距。这一结果表明，底层 LLM 能力对图像标题生成是一种人工智能技术，用于自动为图像生成相应的标题。这项技术结合了计算机视觉和自然语言处理的方法，通过分析图像的内容和特征，以及对语义和语法的理解，生成与图像相关的描述性标题。图像标题生成在许多领域有广泛的应用，包括图像搜索、图像标注、图像检索等。通过自动化生成标题，可以提高图像的可理解性和搜索引擎的准确性，为用户提供更好的图像检索和浏览体验任务的影响较小，但在很大程度上取决于数据规模和配准方法。

需要进行的重写是：对多模态推理任务进行人工评估

图 3 显示，与基线（LLaVA：34.4% 的胜率和 MiniGPT4：27.0% 的胜率）相比，AnyMAL 性能强劲，与人工标注的实际样本的差距较小（41.1% 的胜率）。值得注意的是，使用完整指令集微调的模型表现出最高的优先胜率，显示出与人类标注的响应相当的视觉理解和推理能力。还值得注意的是，BLIP-2 和 InstructBLIP 在这些开放式查询中表现不佳（分别为 4.1% 和 16.7% 的优先胜出率），尽管它们在公开的 VQA 基准测试中表现出色（见表 4）。

VQA 基准

在表4中，我们展示了在Hateful Meme数据集、VQAv2、TextVQA、ScienceQA、VizWiz和OKVQA上的零样本性能，并与文献中报告的各自基准上的零样本结果进行了比较。我们的研究重点放在零样本评估上，以便在推理时最准确地估计模型在开放式查询上的性能

视频 QA 基准

如表 6 所示，研究在三个具有挑战性的视频 QA 基准上对模型进行了评估。

重新生成音频字幕

表 5 显示了 AudioCaps 基准数据集上的重新生成音频字幕结果。AnyMAL 的表现明显优于文献中其他最先进的音频字幕模型（例如，CIDEr +10.9pp，SPICE +5.8pp），这表明所提出的方法不仅适用于视觉，还适用于各种模态。与 7B 和 13B 变体相比，文本 70B 模型表现出了明显的优势。

有趣的是，根据从AnyMAL论文提交的方式、类型和时间推测，Meta似乎计划通过其新推出的混合现实/元宇宙头显来收集多模态数据。这些研究成果可能会被整合到Meta的元宇宙产品线中，或者很快应用于消费级应用中

更多详细内容请阅读原文。

以上就是多模态版Llama2上线，Meta发布AnyMAL的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/487903.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

军用无人机的全新版本首次亮相！

上一篇 2025年11月8日 14:21:28

飞桨常规赛：中文场景文字识别- 12月第8名方案

下一篇 2025年11月8日 14:25:09

好文分享

如何用HTML插入标签云组件_HTML CSS3变换与随机颜色生成算法

使用HTML构建标签结构，CSS3添加旋转与过渡效果，JavaScript生成随机HSL颜色并设置字体大小，实现动态交互的标签云组件。要在网页中实现一个动态的标签云组件，结合 HTML、CSS3 变换和随机颜色生成算法，可以按照以下步骤操作。这个组件不仅能提升页面视觉效果，还能通过色彩和旋转增加交…

程序猿
2025年12月23日
0000
好文分享

如何在Go Gin应用中集成前端JavaScript模块（如Sentry）

本文探讨了在Go Gin框架下，通过HTML模板服务前端页面时，如何有效集成JavaScript模块（如Sentry）。针对浏览器不直接支持Node.js模块导入语法的问题，文章详细阐述了利用CDN引入Sentry SDK的解决方案，并提供了具体的代码示例，帮助开发者实现前端错误监控功能，避免了复杂…

程序猿
2025年12月23日
0000
好文分享

html官网浏览入口_html网站设计免费平台

html官网浏览入口在https://www.codepen.io，该平台支持实时预览代码、创建Pen项目、Fork开源示例，可添加外部资源，具备点赞评论收藏等社区互动功能，设有挑战活动与作品集分类，开放API接口，界面简洁适合初学者，在线编写无需配置环境，支持多种预处理器和响应式测试。 html官…

程序猿
2025年12月23日
0000
好文分享

html如何修改日期样式

在html中，可以使用“::-webkit-datetime-edit”伪元素选择器来修改日期格式，只需要用该选择器选中元素，在设置具体样式即可，具体语法为“::-webkit-datetime-edit{属性:属性值}”。本教程操作环境：windows7系统、CSS3&&HTML…

程序猿
2025年12月21日
1000
好文分享

单选框的type属性值为什么

单选框的type属性值为“radio”。html type属性可以规定要显示的输入框“”元素的类型；值为“radio”时显示为单选框、“checkbox”时显示为复选框、“select”时显示为下拉式选框等等。本教程操作环境：windows7系统、HTML5版、Dell G3电脑。在HTML中，…

程序猿
2025年12月21日
0000
好文分享

HTML中type是什么意思

在HTML中，type是类型的意思，是一个标签属性，主要用于定义标签元素的类型或文档（脚本）的MIME类型；例在input标签中type属性可以规定input元素的类型，在script标签中type属性可以规定脚本的MIME类型。本教程操作环境：windows7系统、html5版、Dell G3电…

程序猿
2025年12月21日
0000
好文分享

详细介绍meta标签

Meta 主要标签（推荐教程：html视频教程） HTML5的meta标签有三个主要属性，分别是 name 属性，charset 属性和 http-equiv 属性。 Charset 声明当前文档的字符编码： http-equiv 类似http的文件头作用，它可以向浏览器设置一些有用的信息，以帮助…

程序猿
2025年12月21日
0000
html文档的头部元素有哪些

html文档的头部元素有：元素，元素，元素，元素，元素，元素和元素。文档的头部描述了文档的各种属性和信息，包括文档的标题、在 Web 中的位置以及和其他文档的关系等；而头部元素就是用来定义这些信息。本篇文章就给大家介绍一下html文档的头部元素，让大家了解html文档的头部元素的作用，希望对你们…

程序猿
好文分享 2025年12月21日
0000
浅谈关于HTML5头部标签的小知识

本章给大家介绍关于html5头部标签的小知识。有一定的参考价值，有需要的朋友可以参考一下，希望对你们有所帮助。 meta是html语言head区的一个辅助性标签，meta标签的作用有很多，比如：搜索引擎优化（seo），定义页面使用语言，自动刷新并指向新的页面，实现网页转换时的动态效果，控制页面缓冲，…

程序猿
好文分享 2025年12月21日
0000
HTML中ul标签如何去掉点？HTML无序列表的样式实例解析

本篇文章主要讲述的是关于html中的ul标签的默认小点给取消掉，还有关于html的无序列表ul标签的样式解释，给出了ul标签中的type属性三种值的介绍。现在就让我们一起来看本篇文章吧首先这篇文章一开始我们就开始介绍在html中是怎么把ul标签的点给去掉的：大家应该都使用过ul无序列表标签，ul…

程序猿
2025年12月21日 • 好文分享
0000
html中的ol标签如何去掉标号呢？标签的使用方法总结

本篇文章介绍了html的ol标签是怎么去掉序号标号的，这里还有代码的详细解释，还有介绍了关于html ol有序列表标签如何更改序号，下文介绍了三种序号，大家也可以自己去想填写怎样的序号。现在来看这篇文章吧一、我们先看看html中的ol标签是如何去掉标号的呢：我们都知道html的ol标签是个有序列…

程序猿
2025年12月21日 • 好文分享
0000
HTML meta标签的作用是什么？html meta标签的使用方法介绍

本篇文章介绍了html meta标签的作用及其使用的方法，介绍了很多使用的方法，希望大家能够自己把这些代码多练习几遍，解释都在旁边，最后还介绍了html meta标签的几种著名网站的meta设置。开始我们先说说meta标签的作用： meta标签是HTML标记head区的一个关键标签，它位于HTML…

程序猿
好文分享 2025年12月21日
0000
好文分享

HTML ul标签的什么意思？HTML ul标签的作用详解

本篇文章主要的为大家讲解了关于html ul标签的三种重要的用法，还有关于html ul标签的解释，包含li标签的还有type属性对ul标签的使用情况，好了，下面大家一起来看文章吧首先让我们先来解释一下HTML ul标签的意思： ul标签定义的是表格当中无序列表，表格当中的无序列表都是在标签之中…

程序猿
2025年12月21日
0000
好文分享

HTML中head标签是什么意思？一篇文章教你正确地使用head标签

本篇文章为大家介绍了什么是html中的head标签，head标签中有哪些元素，看完本篇文章你会对html中的头部标签head了解的更透彻，本文用简单的方法让大家懂得这些标签怎么使用，都会了的话就能更好的使用head标签了，现在让我们一起阅读本篇文章吧首先我们要知道什么是HTML中head标签： …

程序猿
2025年12月21日
0000
HTML中的标签的使用详解

这篇文章主要介绍了html中的标签的使用，非常不错，具有一定的参考借鉴价值，需要的朋友参考下吧　　在我们制作的网页中，要是想让它能够让更多的人去访问，最好的方法就是通过搜索引擎来找到你的网址，于是需要你的网页可以有关键词能够让搜索引擎来识别，于是HTML中的标签就是这个功能，将这个页面的关键信息写…

程序猿
好文分享 2025年12月21日
0000
html 图像标记 META标签内联框架超链接

这篇文章介绍的内容是html 图像标记 META标签内联框架超链接，有着一定的参考价值，现在分享给大家，有需要的朋友可以参考一下 1.图像标记 @@##@@ width=” ”宽度 height=” ” 高度 src=“ ”路径地址 alt=“ ” 描述 @@##@@ ps：为了图片显示不…

程序猿
好文分享 2025年12月21日
0000
H5中meta标签及作用

本文主要和大家分享h5中meta标签及作用，希望能帮助到大家。 H5标准声明，使用 HTML5 doctype，不区分大小写 // 标准的 lang 属性写法 // 声明文档使用的字符编码 // 优先使用 IE 最新版本和 Chrome // 页面描述 // 页面关键词 // 网页作者 // 搜索引…

程序猿
好文分享 2025年12月21日
0000
html中meta标签及用法详解

元素可提供有关页面的元信息（meta-information），比如针对搜索引擎和更新频度的描述和关键词。本文主要给大家介绍了html中meta标签及用法详解，感兴趣的朋友一起看看吧，希望能帮助到大家。 Html中meta标签一、meta标签含义　　元素可提供有关页面的元信息（meta-i…

程序猿
好文分享 2025年12月21日
0000
HTML的meta viewport属性应该如何使用

这次给大家带来html的meta viewport属性应该如何使用，使用html的meta viewport属性注意事项有哪些，下面就是实战案例，一起来看一下。什么是Viewport 手机浏览器是把页面放在一个虚拟的“窗口”（viewport）中，通常这个虚拟的“窗口”（viewport）比屏幕宽…

程序猿
好文分享 2025年12月21日
0000
HTML的头标签meta如何实现refresh重新定向

这次给大家带来html的头标签meta如何实现refresh重新定向，html的头标签meta如何实现refresh重新定向的注意事项有哪些，下面就是实战案例，一起来看一下。对不起。我们已经搬家了。您的 URL 是 http://www.w3school.com.cn 您将在 5 秒内被重定向到新…

程序猿
好文分享 2025年12月21日
0000

发表回复

登录后才能评论

多模态版Llama2上线，Meta发布AnyMAL

关于作者

相关推荐

发表回复