人大高瓴人工智能学院Nature子刊尝试利用多模态基础模型迈向通用人工智能

程序猿 • 2025年11月9日 19:21:15 • 科技 • 阅读 1

最近，中国人民大学高瓴人工智能学院卢志武教授、孙浩长聘副教授、以及院长文继荣教授作为共同通讯作者在国际综合期刊《自然·通讯》（英文名：Nature Communications，简称Nat Commun）上发表题为「Towards Artificial General Intelligence via a Multimodal Foundation Model」的研究论文，文章第一作者为博士生费楠益。该工作尝试利用多模态基础模型迈向通用人工智能，并将对各种 AI + 领域（如神经科学和医疗健康）产生广泛的影响。本文是这篇论文的解读。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文链接：https://www.nature.com/articles/s41467-022-30761-2代码链接：https://github.com/neilfei/brivl-nmi

人工智能的基本目标是模仿人类的核心认知活动，如感知、记忆、推理等。虽然许多人工智能算法或模型在各个研究领域都取得了巨大的成功，但是受限于大量标注数据的获取或是没有足够的计算资源支撑在大规模数据上的训练，大多数的人工智能研究还是只局限于单个认知能力的习得。

为了克服这些局限并向通用人工智能迈出一步，我们以人类大脑处理多模态信息为灵感（如图 1a），开发了一个多模态（视觉语言）基础模型，也即预训练模型。此外，为了让模型获得强大的泛化能力，我们提出训练数据中的图片与文本应遵循弱语义相关假设（如图 1b），而不是图片区域与单词的精细匹配（强语义相关），因为强语义相关假设将导致模型丢失人们在为图片配文时暗含的复杂情感和思考。

图 1：基于弱语义相关假设的 BriVL 模型。a. 我们的 BriVL 模型和人脑在处理视觉语言信息上的对比。b. 建模弱语义相关数据和建模强语义相关数据的对比。

通过在爬取自互联网的大规模图文对数据上进行训练，我们得到的多模态基础模型展现出强大的泛化能力和想象能力。我们相信，我们的工作向通用人工智能迈出了重要的一步（虽然可能很小），并将对各种 AI + 领域（如神经科学和医疗健康）产生广泛的影响。

方法

我们开发了一个大规模多模态基础模型在海量的多模态数据上进行自监督训练，并把它取名为 BriVL（Bridging-Vision-and-Language）。

首先，我们使用了一个从互联网构建的大规模多源图文数据集，称为弱语义相关数据集（WSCD）。WSCD 收集了来自网络上多个来源的中文图像文本对，包括新闻、百科和社交媒体。我们只过滤掉了 WSCD 中的色情和敏感数据，没有对原始数据进行任何形式的编辑和修改，以保持其自然的数据分布。总的来说，WSCD 有大约 6.5 亿个图文对，覆盖了许多主题，如体育、日常生活和电影。

其次，对于我们的网络架构，由于图像和文本之间不一定存在细粒度的区域单词匹配，我们丢掉了耗时的目标检测器，采用简单的双塔架构，因此能够通过两个独立的编码器对图像和文本输入进行编码（如图 2）。双塔结构在推理过程中具有明显的效率优势，因为候选集的特征可以在查询前计算和索引，满足现实世界应用的实时要求。第三，随着大规模分布式训练技术和自监督学习的发展，用海量的未标注的多模态数据训练模型成为可能。

具体来说，为了对图文对的弱相关性进行建模，并学习一个统一的语义空间，我们基于单模态对比学习方法 MoCo 设计了一个跨模态对比学习算法。如图 2 所示，我们的 BriVL 模型使用了 momentum 机制，用来在不同的训练批次中动态维护负样本队列。通过这种方式，我们会有一个比较大的负样本数量（对对比学习至关重要），同时使用一个相对较小的 batch 大小以减少 GPU 的内存占用（即 GPU 资源节约）。

图 2：用于大规模多模态预训练的 BriVL 模型示意图。

主要结果

神经网络可视化

当我们听到文字或描述性的句子时，脑海中就会出现一些场景。那对于我们的 BriVL，它在如此大量的弱相关图文对上进行预训练以后，我们就很好奇当给出文本时，它会想象到什么。

具体来说，我们首先输入一段文本，通过 BriVL 的文本编码器获得其文本嵌入。然后我们随机初始化一个噪声图像，并通过图像编码器得到其特征嵌入。由于输入的图像是随机初始化的，它的特征与输入文本的特征必定不一致。因此，我们定义了匹配两个特征嵌入的目标，并通过反向传播来更新输入图像。最终得到的图像便能清楚地展示 BriVL 对输入文本的想象。这里我们不使用任何额外的模块或数据，预训练好的 BriVL 也在整个可视化过程中被冻结。

我们首先介绍 BriVL 对一些高级语义概念的想象能力（如图 3）。可以看到，尽管这些概念非常抽象，但可视化还是能够显示出它们的具体形态（例如，“自然”：像草一样的植物；“时间”：钟表；“科学”：一张戴着眼镜的脸和一个锥形瓶；“梦境”：云，一座通往门的桥，以及梦境般的氛围）。这种将抽象概念概括为一系列具体物体的能力表明了我们的多模态预训练只使用弱语义相关数据的有效性。

图 3：BriVL 模型对抽象概念的想象。

在图 4 中，我们展示了 BriVL 对句子的想象力。BriVL 对 “乌云背后有阳光” 的想象不仅从字面上体现了乌云背后的阳光，而且似乎还显示出海上的危险情况（左边有船一样的物体和波浪），表达了这句话的隐含意思。在 “生如夏花” 的可视化中，我们可以看到一个花丛。接下来的两个场景更复杂的文本输入都来自中国古诗，其语法也与训练集中的绝大多数文本完全不同。看起来 BriVL 也能很好地理解它们：对于“竹外桃花三两枝”，我们可以看到有竹子和粉红色的花；对于“白日依山尽，黄河入海流”，我们可以看到山上的树木遮掩着夕阳，前面河流上有一艘小船。总的来说，我们发现即使在复杂句子的提示下，BriVL 依然具有很强的想象能力。

盘古大模型

华为云推出的一系列高性能人工智能大模型

35 查看详情

图 4：BriVL 模型对中文句子的想象。

在图 5 中，几个类似的文本被用于 BriVL 的神经网络可视化。对于“有森林的山脉”，图像中有更多的绿色区域；对于“有石头的山脉”，图像中有更多的岩石；对于“有雪的山脉”，中间树木周围的地面都是白色或蓝色；对于“有瀑布的山脉”，可以看到蓝色的水落下来，甚至还有一些水蒸汽。这些可视化结果证明了 BriVL 能对山脉的修饰词进行准确的理解和想象。

图 5：BriVL 模型对 “有… 的山脉” 的想象。

文生成图

神经网络可视化非常直接，但有时会很难解释。因此我们开发了另一种可视化 / 可解释性方法，使 BriVL 的想象内容可以更好地被我们人类理解。具体来说，我们利用 VQGAN 在 BriVL 的指导下来生成图像，因为在 ImageNet 数据集上预训练的 VQGAN 非常善于生成逼真的图像。我们首先随机得到一个 token 序列，并从预训练好的 VQGAN 中获得一个生成图像。接着，我们将生成的图像输入到 BriVL 的图像编码器中，同时将一段文本输入到文本编码器中。最后，我们定义图像和文本嵌入之间需要匹配的目标，并通过反向传播来更新初始的 token 序列。与神经网络可视化一样，VQGAN 和 BriVL 在生成过程中都被冻结。为了比较，我们还展示了 OpenAI 的 CLIP 模型代替 BriVL 来生成的图像。

我们首先选择了四个文本输入，分别在图 6 和图 7 展示了 CLIP 和我们 BriVL 的文生成图结果。CLIP 和 BriVL 都能很好地理解文本，然而我们也观察到两个主要的差异。第一，卡通风格的元素会在 CLIP 生成的图像中出现，而 BriVL 生成的图像则更加真实和自然。第二，CLIP 倾向于简单地把元素放在一起，而 BriVL 生成的图像在全局上更加统一。第一个差异可能是由于 CLIP 和 BriVL 使用的训练数据不同。我们训练数据中的图像是从互联网上抓取的（大部分是真实的照片），而在 CLIP 的训练数据中可能有一定数量的卡通图像。第二个区别可能是由于 CLIP 使用的图文对具有很强的语义相关性（通过单词过滤），而我们使用的则是弱相关数据。这意味着在多模态预训练期间，CLIP 更有可能学到具体物体和单词 / 词组之间的对应关系，而 BriVL 则试图将每张图像与给定的文本作为一个整体来理解。

图 6：CLIP（w/ ResNet-50×4）借助 VQGAN 实现文生成图的例子。

图 7：我们的 BriVL 借助 VQGAN 实现文生成图的例子。

我们还考虑了一个更具挑战性的任务，即根据多个连贯的句子来生成一系列的图像。如图 8 所示，虽然每张图片都是独立生成的，但我们可以看到，四张图片在视觉上是连贯的，风格也是一样的。这表明了 BriVL 模型的另一个优势：尽管图像中的环境和背景很难在相关文本中明确提及，但在我们的大规模多模态预训练中，它们并没有被忽略。

图 8：我们的 BriVL 借助 VQGAN 进行一系列连贯内容生成的例子。

在图 9 中，我们选择了一些人类很少见到的概念 / 场景（如 “熊熊燃烧的大海” 和“发光的森林”），甚至是那些在现实生活中不存在的概念 / 场景（如 “赛博朋克风格的城市” 和“云端的城堡”）。这证明了 BriVL 的优越性能不是来自于对预训练数据的过拟合，因为这里输入的概念 / 场景在现实生活中甚至不存在（当然极大可能就不在预训练数据集中）。此外，这些生成的例子再次验证了在弱语义相关数据上预训练 BriVL 的优势（因为细粒度的区域单词对齐会损害 BriVL 的想象能力）。

图 9：更多 BriVL 的文生成图结果，其中的概念 / 场景都是人类不常看到甚至是现实生活中不存在的。

此外，我们还将 BriVL 应用于遥感图像零样本分类、中文新闻零样本分类、视觉问答等多个下游任务，均取得一些有意思的结果，具体请见我们的论文原文。

结论与讨论

我们开发了一个名为 BriVL 的大规模多模态基础模型，该模型在 6.5 亿的弱语义相关图文上进行了训练。我们通过神经网络可视化和文生成图直观展示了对齐的图文嵌入空间。此外，在其他下游任务上的实验也显示了 BriVL 的跨领域学习 / 迁移能力以及多模态学习相对于单模态学习的优势。特别地，我们发现 BriVL 似乎获得了一定地想象和推理能力。我们相信这些优势主要来自于 BriVL 所遵循的弱语义相关假设。也就是说，通过挖掘弱相关图文对中复杂的人类情感和思想，我们的 BriVL 变得更加具有认知性。

我们相信，我们向通用人工智能迈出的这一步，不仅会对人工智能领域本身产生广泛的影响，也会对各个 AI + 领域产生影响。对于人工智能的研究，基于我们 GPU 资源节约型的多模态预训练框架，研究人员可以很容易地将 BriVL 扩展到更大的量级和更多的模态，以得到更通用的基础模型。在大规模多模态基础模型的帮助下，研究人员也更容易探索新的任务（尤其是那些没有足够人类标注的样本）。对于 AI + 领域，由于其强大的泛化能力，基础模型可以快速适应特定的工作环境。例如，在医疗保健领域，多模态基础模型可以充分利用病例的多模态数据来提高诊断的准确性；在神经科学领域，多模态基础模型甚至可能可以帮助找出多模态信息如何在人脑中融合的机制，因为人工神经网络比人类大脑中的真实神经系统更容易研究。

尽管如此，多模态基础模型仍然面临着一些风险和挑战。基础模型可能会学到对某些事情的偏见和成见，这些问题应该在模型训练前仔细处理，并在下游应用中进行监控和解决。此外，随着基础模型掌握越来越多的能力，也要小心它被心怀不轨的人滥用，避免对社会产生负面影响。此外，在基础模型地未来研究上，也存在一些挑战：如何开发更深入的模型可解释性工具，如何用更多的模态构建预训练数据集，以及如何用更有效的微调技术将基础模型应用于各个下游任务。

本篇论文作者为：费楠益、卢志武、高一钊、杨国兴、霍宇琦、温静远、卢浩宇、宋睿华、高欣、向滔、孙浩、文继荣；共同通讯作者为人大高瓴人工智能学院卢志武教授、孙浩长聘副教授、文继荣教授。论文发表于国际综合期刊《自然 · 通讯》（英文名：Nature Communications，简称 Nat Commun）。本篇论文由费楠益解读。

以上就是人大高瓴人工智能学院Nature子刊尝试利用多模态基础模型迈向通用人工智能的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/549542.html

模型神经网络

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

人们用ChatGPT自动写邮件微软Salesforce都开始集成类似功能

上一篇 2025年11月9日 19:21:03

有关通用人工智能需要知道的事项

下一篇 2025年11月9日 19:21:56

好文分享

HTMLPagelinks怎么优化_分页链接SEO优化技巧

答案是：分页SEO的核心在于通过“查看全部”页面集中权重或构建清晰的内部链接结构来引导搜索引擎理解页面关系。应优先创建“查看全部”页面整合内容，并设置canonical标签指向该页，同时确保分页导航为可抓取的HTML链接，包含前后页、首尾页及附近页码链接，以提升抓取效率、传递权重并改善用户体验，从而…

程序猿
2025年12月22日
0000
html的盒模型详解

这次给大家带来html的盒模型详解，使用html盒模型的注意事项有哪些，下面就是实战案例，一起来看一下。 1.1. 盒的内容区的尺寸— content width和content height —取决于几个因素： –生成该盒的元素是否设置了’width’或&#82…

程序猿
好文分享 2025年12月21日
0000
好文分享

javascript的机器学习如何入门_有哪些可用的JavaScript库

JavaScript适合浏览器端轻量推理与教学，不宜训练大模型；推荐从线性回归、KNN等简单任务入手，优先掌握张量操作、模型流程及Chrome调试技巧。 JavaScript 做机器学习确实可行，但得明确一点：它不适合训练大型模型，更适合在浏览器端做轻量推理、数据预处理、教学演示或与 Web 应用集…

程序猿
2025年12月21日
0000
好文分享

JavaScript数学计算与数值分析库

math.js适合日常复杂计算，numeric.js专精数值分析，simple-statistics用于统计分析，TensorFlow.js适用于AI与大规模数值运算。 JavaScript虽然原生支持基本的数学运算，但在处理复杂数学计算、数值分析或科学计算时，依赖第三方库能大幅提升开发效率和计算精…

程序猿
2025年12月21日
0000
好文分享

JavaScript机器学习库应用

答案：JavaScript机器学习库适用于多种场景。TensorFlow.js支持浏览器端图像分类与姿态识别，利用WebGL加速；ML5.js封装简洁，适合初学者快速调用预训练模型；Synaptic.js灵活构建自定义神经网络；Brain.js专注数值预测任务。选择依据为：功能全面选TensorFl…

程序猿
2025年12月21日
1000
好文分享

LangChain HNSWLib 向量存储机制与数据持久化指南

本文详细解析langchain中hnswlib向量存储的工作原理，明确其作为内存存储的特性，指出数据实际存储在项目部署的服务器上，而非langchain官方服务器。同时，文章将指导如何通过save_local()方法将内存中的向量数据持久化到本地文件，确保数据安全与可靠性，并探讨在实际应用中的注意事…

程序猿
2025年12月20日
0000
好文分享

如何用机器学习库（如TensorFlow.js）在浏览器中训练模型？

完全可行，适合轻量级任务与隐私保护场景。通过CDN引入TensorFlow.js后，使用tf.sequential()构建模型，编译时配置优化器、损失函数等。将数据转为张量并归一化，调用model.fit()训练，支持回调监控。训练后可保存至本地或导出文件，后续加载进行预测。虽计算力受限，但合理设计…

程序猿
2025年12月20日
0000
好文分享

如何利用 JavaScript 实现一个简单的机器学习模型进行预测或分类？

答案是JavaScript可实现简单机器学习模型。通过手动实现线性回归和kNN算法，可在前端完成基础预测与分类任务；结合TensorFlow.js则能训练神经网络，支持更复杂场景，适合轻量级应用开发。用 JavaScript 实现一个简单的机器学习模型是完全可行的，尤其适合初学者理解基本原理或在前…

程序猿
2025年12月20日
0000
好文分享

如何用WebGPU加速浏览器端的机器学习推理？

WebGPU通过提供现代、低开销的GPU计算能力，显著提升了浏览器端机器学习推理的性能。相比为图形渲染设计的WebGL，WebGPU原生支持通用计算，具备更低API开销、更高效的内存管理和更强的并行处理能力，能直接执行计算着色器，避免WebGL将数据编码到纹理等间接操作。其核心优势包括更高的执行效率…

程序猿
2025年12月20日
0000
好文分享

JS 机器学习入门实践 – 使用 TensorFlow.js 实现基础神经网络

使用TensorFlow.js可在浏览器或Node.js中用JavaScript实现基础神经网络，核心步骤包括：引入库、准备数据（如张量形式的输入输出）、定义模型架构（如序贯模型和全连接层）、编译模型（指定优化器和损失函数）、训练模型（设置epochs并监控损失）以及进行预测。以线性回归y=2x+1…

程序猿
2025年12月20日
0000
好文分享

如何用WebNN API在浏览器中运行神经网络模型？

WebNN API通过提供标准化接口直接调用设备AI硬件，实现浏览器内高性能、低延迟的本地AI推理。它需将预训练模型转换为ML计算图，经编译后在支持的硬件上执行，相比TF.js等方案减少中间层开销，提升效率与隐私性。当前面临模型格式兼容性、浏览器与硬件支持碎片化、调试工具不足及内存管理挑战。未来将推…

程序猿
2025年12月20日
0000
好文分享

c++如何实现一个简单的神经网络推理框架_c++ ONNX Runtime集成【AI】

推荐集成ONNX Runtime而非手写推理框架，因其专为高效推理设计，支持多硬件后端、量化、图优化及原生C++ API，只需加载ONNX模型并执行推理即可。用 C++ 实现一个“从零开始”的完整神经网络推理框架工程量大、易出错，不推荐；实际项目中更高效可靠的做法是集成成熟推理引擎——ONNX R…

程序猿
2025年12月19日
0000
在嵌入式系统中构建C++驱动的低功耗算法模型

在嵌入式系统中实现低功耗运行的关键之一是优化驱动层与算法模型的协同效率。c++++ 因其兼具高性能与面向对象的优势，成为构建高效驱动和轻量级算法模型的理想选择。重点在于如何利用 c++ 的特性，在资源受限的环境中实现响应迅速、能耗极低的系统行为。使用C++封装硬件驱动以提升能效直接操作寄存器虽然…

程序猿
好文分享 2025年12月19日
0000
怎样在C++中实现神经网络_深度学习基础实现

在c++++中实现神经网络的关键在于选择合适的库、定义神经元和层、实现激活函数、前向传播、反向传播，并选择优化算法。1. 选择合适的库，如eigen进行矩阵运算；2. 定义神经元和层类以实现前向传播；3. 实现sigmoid、relu等激活函数；4. 实现前向传播计算输出；5. 实现反向传播用于训练…

程序猿
2025年12月18日 • 好文分享
0000
好文分享

C++在金融人工智能中的神经网络模型实现

c++++适合实现神经网络，因其性能优异且提供内存管理。使用神经网络库（如tensorflow或eigen）可以构建神经网络模型，包括输入层、隐藏层和输出层。神经网络通过反向传播算法训练，涉及前向传播、计算损失、反向传播和权重更新。在股票价格预测的实战案例中，可以定义输入和输出数据，创建神经网络，并…

程序猿
2025年12月18日
0000
好文分享

XML如何表示神经网络模型？用XML描述神经网络层结构与参数的规范方法

XML通过结构化标签描述神经网络的层类型、连接方式和参数，如定义全连接层，存储权重矩阵，并支持Base64编码或外部文件引用以提高效率，适用于模型架构交换而非大规模权重存储。 XML在表示神经网络模型时，通常通过定义一套结构化的标签和属性来描述模型的各个组成部分，比如层类型、连接方式、激活函数以及具…

程序猿
2025年12月17日
0000
好文分享

XML如何表示神经网络模型？

XML可用于表示神经网络模型，其优势在于结构化、可读性强、平台无关，适合描述模型架构；但局限性明显：文件冗余大、解析效率低、不擅长存储大型数值矩阵，导致在实际应用中多用于保存模型配置，权重等数据常分离存储于HDF5、NumPy等二进制文件；更高效的序列化格式如HDF5、JSON、Protobuf和O…

程序猿
2025年12月17日
0000
好文分享

python中RNN和LSTM的基本介绍

RNN通过隐藏状态传递时序信息，但难以捕捉长期依赖；LSTM引入遗忘门、输入门和输出门机制，有效解决梯度消失问题，提升对长距离依赖的学习能力，适用于语言建模、翻译等序列任务。在处理序列数据时，比如时间序列、文本或语音，传统的神经网络难以捕捉数据中的时序依赖关系。RNN（循环神经网络）和LSTM（长…

程序猿
2025年12月14日
0000
好文分享

PyTorch中VGG-19模型的微调策略：全层与特定全连接层更新实践

本文详细介绍了在pytorch中对预训练vgg-19模型进行微调的两种核心策略：一是更新模型所有层的权重以适应新任务；二是通过冻结大部分层，仅微调vgg-19分类器中的特定全连接层（fc1和fc2）。文章将通过示例代码演示如何精确控制参数的梯度计算，并强调根据新数据集的类别数量调整最终输出层的重要性…

程序猿
2025年12月14日
0000
好文分享

本地加载TensorFlow MNIST .npz数据集教程

本教程旨在解决tensorflow中因网络连接问题导致mnist数据集无法通过`tf.keras.datasets.mnist.load_data()`在线加载的困境。我们将详细指导用户如何手动下载`mnist.npz`文件，并利用numpy库将其高效、准确地加载到本地环境中，从而确保机器学习项目的…

程序猿
2025年12月14日
0000