多模态版Llama2上线,Meta发布AnyMAL

在多个基准测试中均刷新了业界最好的 zero-shot 性能。

一个统一的模型,可以对不同模态输入内容(文本、图像、视频、音频、IMU 运动传感器数据)实现理解,并生成文本响应,技术基于 Llama 2,来自 Meta。

昨天,多模态大模型 AnyMAL 的研究吸引了 AI 研究社区的关注。

大型语言模型(LLM)以其巨大的规模和复杂性而闻名,它极大地增强了机器理解和表达人类语言的能力。LLM 的进步使视觉语言领域有了显著进步,弥合了图像编码器和 LLM 之间的差距,将它们的推理能力结合起来。先前的多模态 LLM 研究集中在结合文本和另一种模态的模型上,如文本和图像模型,或者集中在非开源的专有语言模型上。

如果有一种更好的方法能够实现多模态功能,将各种模态能够嵌入在LLM中使用,这会给我们带来不同的体验吗?

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

多模态版Llama2上线,Meta发布AnyMAL

                                   输出示例

为了解决这个问题,来自Meta的研究人员最近推出了AnyMAL(Any-Modality Augmented Language Model)。这是一个经过训练的多模态编码器集合,可以将来自各种模态(包括图像、视频、音频和IMU运动传感器数据)的数据转换为LLM的文本嵌入空间

多模态版Llama2上线,Meta发布AnyMAL

论文地址:https://huggingface.co/papers/2309.16058

根据说明,该研究的主要贡献如下所示:

为构建多模态 LLM 提出了一种高效、可扩展的解决方案。本文提供了在大型数据集上预先训练的投影层,这些数据集包含多种模态(例如,2 亿张图像、220 万段音频、50 万 IMU 时间序列、2800 万段视频),所有数据集都与同一个大模型(LLaMA-2- 70B-chat)对齐,从而实现了交错式多模态上下文提示。

本研究使用跨三种模式(图像、视频和音频)的多模态指令集对模型进行了进一步微调,涵盖了简单问答(QA)领域以外的各种不受限制的任务。该数据集包含高质量的人工收集指令数据,因此本研究将其作为复杂多模态推理任务的基准

本文最佳模型在各种任务和模式的自动和人工评估中取得了很好的零误差性能,相较于现有文献中的模型,在 VQAv2 上的相对准确率提高了7.0%,在零误差 COCO 图像字幕上提高了8.4% 的 CIDEr,在 AudioCaps 上提高了14.5% 的 CIDEr,创造了新的 SOTA

方法

多模态版Llama2上线,Meta发布AnyMAL                                        方法概览

预训练模态对齐的内容需要进行改写

通过使用配对的多模态数据(包括特定的模态信号和文本叙述),本研究对LLM进行了预训练,以实现多模态理解能力,如图2所示。具体而言,我们为每个模态训练了一个轻量级适配器,将输入信号投射到特定LLM的文本标记嵌入空间中。这样,LLM的文本标记嵌入空间就变成了一个联合的标记嵌入空间,其中标记可以代表文本或其他模态

关于图像对齐的研究,我们使用了LAION-2B数据集的一个干净子集,并采用了CAT方法进行过滤,对任何可检测到的人脸进行了模糊处理。而对于音频对齐的研究,则使用了AudioSet(2.1M)、AudioCaps(46K)和CLOTHO(5K)数据集。此外,我们还使用了Ego4D数据集进行IMU和文本的对齐(528K)

对于大型数据集,要将预训练扩展到70B参数模型需要大量资源,通常需要使用FSDP封装器在多个GPU上对模型进行分片。为了有效地扩展训练规模,本文在多模态设置中实施了量化策略(4位和8位),其中冻结了模型的LLM部分,只有模态tokenizer是可训练的。这种方法将内存需求缩小了一个数量级。因此,70B AnyMAL能够在单个80GB VRAM GPU上就完成训练,batch size为4。与FSDP相比,本文提出的量化方法只使用了GPU资源的一半,却实现了相同的吞吐量

多模态版Llama2上线,Meta发布AnyMAL

利用多模态指令数据集进行微调的意思是使用多种模态的指令数据集来进行微调

为了进一步提高模型对不同输入模态的指令跟随能力,研究利用多模态指令调整(MM-IT)数据集进行了额外的微调。具体来说,我们将输入连接为 [多模态版Llama2上线,Meta发布AnyMAL],这样响应目标就同时以文本指令和模态输入为基础。研究对以下两种情况进行消减:(1)在不改变 LLM 参数的情况下训练投影层;或(2)使用低级适应(Low-Rank Adaptation)进一步调整 LM 行为。研究同时使用人工收集的指令调整数据集和合成数据。

百灵大模型 百灵大模型

蚂蚁集团自研的多模态AI大模型系列

百灵大模型 177 查看详情 百灵大模型

实验及结果

图像标题生成是一种人工智能技术,用于自动为图像生成相应的标题。这项技术结合了计算机视觉和自然语言处理的方法,通过分析图像的内容和特征,以及对语义和语法的理解,生成与图像相关的描述性标题。图像标题生成在许多领域有广泛的应用,包括图像搜索、图像标注、图像检索等。通过自动化生成标题,可以提高图像的可理解性和搜索引擎的准确性,为用户提供更好的图像检索和浏览体验

表 2 显示了在 COCO 和标有「详细描述」 任务(MM-IT-Cap)的 MM-IT 数据集子集上的零样本图像字幕生成性能。可以看出, AnyMAL 变体在这两个数据集上的表现都明显优于基线。值得注意的是,AnyMAL-13B 和 AnyMAL-70B 变体的性能没有明显差距。这一结果表明,底层 LLM 能力对图像标题生成是一种人工智能技术,用于自动为图像生成相应的标题。这项技术结合了计算机视觉和自然语言处理的方法,通过分析图像的内容和特征,以及对语义和语法的理解,生成与图像相关的描述性标题。图像标题生成在许多领域有广泛的应用,包括图像搜索、图像标注、图像检索等。通过自动化生成标题,可以提高图像的可理解性和搜索引擎的准确性,为用户提供更好的图像检索和浏览体验任务的影响较小,但在很大程度上取决于数据规模和配准方法。

多模态版Llama2上线,Meta发布AnyMAL

需要进行的重写是:对多模态推理任务进行人工评估

图 3 显示,与基线(LLaVA:34.4% 的胜率和 MiniGPT4:27.0% 的胜率)相比,AnyMAL 性能强劲,与人工标注的实际样本的差距较小(41.1% 的胜率)。值得注意的是,使用完整指令集微调的模型表现出最高的优先胜率,显示出与人类标注的响应相当的视觉理解和推理能力。还值得注意的是,BLIP-2 和 InstructBLIP 在这些开放式查询中表现不佳(分别为 4.1% 和 16.7% 的优先胜出率),尽管它们在公开的 VQA 基准测试中表现出色(见表 4)。

多模态版Llama2上线,Meta发布AnyMAL

VQA 基准

在表4中,我们展示了在Hateful Meme数据集、VQAv2、TextVQA、ScienceQA、VizWiz和OKVQA上的零样本性能,并与文献中报告的各自基准上的零样本结果进行了比较。我们的研究重点放在零样本评估上,以便在推理时最准确地估计模型在开放式查询上的性能

多模态版Llama2上线,Meta发布AnyMAL

视频 QA 基准

如表 6 所示,研究在三个具有挑战性的视频 QA 基准上对模型进行了评估。

多模态版Llama2上线,Meta发布AnyMAL

重新生成音频字幕

表 5 显示了 AudioCaps 基准数据集上的重新生成音频字幕结果。AnyMAL 的表现明显优于文献中其他最先进的音频字幕模型(例如,CIDEr +10.9pp,SPICE +5.8pp),这表明所提出的方法不仅适用于视觉,还适用于各种模态。与 7B 和 13B 变体相比,文本 70B 模型表现出了明显的优势。

多模态版Llama2上线,Meta发布AnyMAL

多模态版Llama2上线,Meta发布AnyMAL

有趣的是,根据从AnyMAL论文提交的方式、类型和时间推测,Meta似乎计划通过其新推出的混合现实/元宇宙头显来收集多模态数据。这些研究成果可能会被整合到Meta的元宇宙产品线中,或者很快应用于消费级应用中

更多详细内容请阅读原文。

以上就是多模态版Llama2上线,Meta发布AnyMAL的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/487903.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月8日 14:21:28
下一篇 2025年11月8日 14:25:09

相关推荐

  • Python的type()函数:获取对象的类型

    Python的type()函数:获取对象的类型,需要具体代码示例 在Python中,我们经常需要知道一个对象的类型,以便在程序中进行相应的处理。Python提供了type()函数来获取对象的类型。本文将介绍type()函数的使用方法,并给出具体的代码示例。 首先,我们来看一下type()函数的基本用…

    2025年12月13日
    000
  • 去中心化交易所怎么用?币安+Uniswap交易操作教程

    使用DEX需先在币安提币至MetaMask,再连接Uniswap兑换:1.币安选择正确主网提币至MetaMask地址;2.安装MetaMask并安全保管助记词;3.连接Uniswap并设置滑点与Gas后完成链上兑换。 使用去中心化交易所(dex)的核心托管通过自托管应用连接并交互。基本流程是在币安等…

    2025年12月12日
    000
  • 如何购买BNB?币安平台入金与交易完整教程

    Binance币安 欧易OKX ️ Huobi火币️ 如何购买BNB?币安平台入金与交易完整教程 BNB(Binance Coin)是币安生态的原生代币,用于手续费折扣、Launchpad参与和BSC链Gas费,目前(2025年10月23日)价格约为$1,121 USD,市值$1600亿美元。新手可…

    2025年12月11日
    000
  • 什么是“Faucet”(水龙头)?如何领取免费的测试币?

    binance币安交易所 注册入口: APP下载: 欧易OKX交易所 注册入口: APP下载: 火币交易所: 注册入口: APP下载: “Faucet”指分发少量测试币的平台,用户通过完成任务获取奖励。 一、理解加密货币水龙头 加密货币水龙头是网站或应用,通过发放小额测试币激励用户。其运作模式类似滴…

    2025年12月9日
    000
  • 去中心化交易所(DEX)的风险与挑战

    去中心化交易所(dex)作为加密货币世界的一股新生力量,正以其独特的优势吸引着越来越多的关注。然而,伴随着去中心化的自由与开放,dex也面临着一系列不容忽视的风险与挑战。本文将深入探讨这些潜在的问题,帮助读者更全面地理解dex的复杂性。 流动性风险 DEX的流动性通常由用户提供的资金池来支撑。这意味…

    好文分享 2025年12月9日
    000
  • 如何在币安购买Orochi (ON)?注册、充值与交易全流程

    Binance币安 欧易OKX ️ Huobi火币️ 如何在币安购买Orochi (ON)?注册、充值与交易全流程 Orochi Network(ON)是专注于RWA数据层和zkDatabase的Layer-1项目,币安将于2025年10月24日在Alpha区和期货市场上线ON/USDT交易对,并通…

    好文分享 2025年12月9日
    000
  • 虚拟货币的赋能:重塑传统金融

    虚拟货币的赋能:重塑传统金融这一主题,并非仅仅是技术层面的革新,它更深层次地触及了传统金融体系的根基,对其运作模式、效率、安全性乃至包容性都带来了颠覆性的影响。当我们谈及“赋能”,我们指的是虚拟货币所具备的独特属性,如去中心化、透明性、不可篡改性以及全球可访问性,这些属性共同赋予了金融服务前所未有的…

    好文分享 2025年12月9日
    000
  • 稳定币:加密世界的“美元”

    在波澜壮阔的加密货币浪潮中,有一种特殊的存在,它们像一座座坚实的灯塔,为变幻莫测的市场提供了一丝安宁与确定性——那就是稳定币。如果我们将比特币比作数字黄金,那么稳定币无疑是加密世界的“美元”,是数字资产之间交易、储值和套利的基础设施。它们的设计初衷,便是为了解决传统加密货币(如比特币、以太坊)价格剧…

    好文分享 2025年12月9日
    000
  • 探秘 WLFI 代币在 DeFi 生态中的角色

    WLFI代币是LunaFi生态中LFI的封装版本,主要用于提升跨链兼容性与流动性,支持在EVM链上参与DeFi应用;其在DeFi中扮演流动性提供、抵押借贷、质押收益及跨链桥梁等多重角色,用户可通过Uniswap等DEX添加WLFI/ETH等交易对提供流动性,并在币安、OKX、火币等中心化交易所进行交…

    2025年12月9日
    000
  • Meta的语音AI布局:主导人机交互的未来

    meta收购play ai:抢占语音ai主导地位,革新ar/vr与可穿戴设备体验 人工智能竞赛正在升温,Meta在2023年战略性地收购了Play AI,这一举动彰显了其在语音界面技术上的坚定投入。此举使Meta能够把握语音驱动体验在增强现实(AR)、虚拟现实(VR)和可穿戴设备中日益增长的需求。 …

    2025年12月8日
    000
  • HiDream-I1— 智象未来开源的文生图模型

    hidream-i1:一款强大的开源图像生成模型 HiDream-I1是由HiDream.ai团队开发的17亿参数开源图像生成模型,采用MIT许可证,在图像质量和对提示词的理解方面表现卓越。它支持多种风格,包括写实、卡通和艺术风格,广泛应用于艺术创作、商业设计、科研教育以及娱乐媒体等领域。 HiDr…

    2025年12月5日
    000
  • AI动画制作工具排行榜 能免费使用的10款AI动画制作工具推荐

    以下是10款免费的AI动画制作工具:1.智影:腾讯推出的在线视频制作平台,提供日漫风格,限时免费。2.Artflow:AI动画创建工具,Story Studio具有视频漫画生成功能,支持12种画面视觉风格。3.Flow Studio:通过文字生成视频片段,支持多种画面风格,新用户有200积分免费生成…

    2025年12月4日 科技
    000
  • Linux实现自动挂载autofs的方法详解

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 目录 实现自动挂载-autofs autofs工具简单使用 autofs配置详细说明 自动挂载资源有两种格式 优化Linux系统性能 安装Tuned 选择调整配置文件 检查系统推荐的调整配置文件…

    2025年12月4日
    000
  • Pollinations.AI— 开源AI内容生成平台,提供免费文本和图像生成API

    pollinations.ai 是一个开源的ai内容生成平台,提供免费且易于使用的文本和图像生成api。pollinations.ai无需注册或api密钥即可使用,支持多种功能,包括图像生成、文本生成、文生音频、音频转文字及视觉内容解析。pollinations.ai提供丰富的api接口和sdk,方…

    2025年12月4日 科技
    000
  • BlenderMCP— 基于 MCP 集成的 3D 建模工具

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ MCP Market MCP Servers集合平台,帮你找到最好的MCP服务器 67 查看详情 BlenderMCP是什么 blendermcp是一种将blender与claude ai通过模…

    2025年12月4日 科技
    000
  • VSCode怎么出现波浪线_VSCode错误提示和语法检查功能说明教程

    VSCode中的波浪线是语言服务、Linter和编译器协同提供的实时反馈,红色表示错误(如语法错误),黄色表示警告(如未使用变量),绿色或下划线表示建议(如代码优化),通过悬停查看提示、检查配置文件(如tsconfig.json、.eslintrc)、使用“问题”面板(Ctrl+Shift+M)定位…

    2025年12月4日
    100
  • RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

    清华和上交的最新论文中,上演了一场“学术打假”的戏码。文中研究者们对当前“纯 rl 有利于提升模型推理能力”的主流观点提出了相反的意见。 通过一系列实验,他们证明引入强化学习的模型在某些任务中的表现,竟然不如未使用强化学习的模型。 论文批判性地探讨了 RLVR 在提升 LLM 推理能力方面的作用,尤…

    2025年12月3日 科技
    100
  • 豆包 AI 官网入口 豆包 AI 使用在线入口

    豆包 AI 的官网入口是 https://www.doubao.com/,使用攻略包括:1. 注册与登录:通过官网注册或第三方账号登录;2. 选择使用方式:网页版、PC 客户端、手机 APP、浏览器插件;3. 基础操作:直接对话、上传图片、使用智能体、保存对话;4. 提问技巧:问题具体化、提供背景信…

    2025年12月2日
    200
  • 豆包 AI 网页端入口 豆包 AI 网页端在线网址

    豆包 AI 网页端入口是 https://www.doubao.com/chat/。其特色功能包括:1. 智能问答,提供各领域的准确答案;2. 内容生成与辅助创作,支持写作和图像生成;3. 搜索与浏览辅助,优化搜索结果并提供网页摘要;4. 对话管理与分享,支持对话分组和分享;5. 本地图片编辑,提供…

    2025年12月2日
    000
  • 豆包 AI 手机客户端入口 豆包 AI 客户端在线入口

    安卓用户可通过应用商店下载或官网下载获取豆包AI客户端,iOS用户通过App Store获取。安装后,打开应用并注册登录即可使用。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 入口地址: 1、豆包ai手机客户端入口☜☜☜☜☜点击保存 2、…

    2025年12月2日
    000

发表回复

登录后才能评论
关注微信