8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

行业首个具备 ” 高刷 ” 视频理解能力的多模态模型minicpm-v 4.5的技术报告正式发布!

8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

报告提出统一的 3D-Resampler 架构实现高密度视频压缩、面向文档的统一 OCR 和知识学习范式、可控混合快速 / 深度思考的多模态强化学习三大技术。

基于这些关键技术,MiniCPM-V 4.5 在视频理解、图像理解、OCR、文档解析等多项任务上达到同级 SOTA 水平,不仅以 8B 的参数规模超越 GPT-4o-latest 和 Qwen2.5-VL-72B,更在推理速度上具有显著优势。

模型一经开源,就广受社区好评,并直接登上 HuggingFace Trending TOP2。

接下来,就和我们一起看看报告里讲了什么。

研究背景

随着多模态大模型的迅速发展,其在模型架构、数据工程和训练方法上的高昂成本和效率瓶颈,正成为其广泛应用和技术迭代的核心障碍。

而在移动设备和边缘计算场景中,如何在保持出色性能的同时实现高效推理,给多模态模型研究和应用提出了更加严峻的挑战。

总的来说,MiniCPM-V 4.5 通过系统性的技术创新攻克三大效率难题:

针对模型架构:为解决处理图像与视频时产生的海量视觉 Token,团队采用了统一 3D-Resampler 架构,大幅降低了视觉编码的 Token 开销,实现最高96 倍的压缩率。在 VideoMME 上,团队以相比 Qwen2.5-VL7B 仅46.7%的显存和8.7%的时间开销,获得了 30B 以下参数量模型的最优性能。

针对训练数据:为解决多模态文档处理中对不可靠外部解析工具的依赖和 OCR 数据工程设计难题,团队提出了统一文档 OCR 与知识学习的新范式,使模型能直接从复杂文档图像中学习,显著降低了数据噪声和数据工程复杂度。最终在 OmniDocBench 上取得了通用 MLLM 中的最好表现。

针对训练方法:为平衡深度思考与日常即时使用两种需求,团队使用了混合强化学习策略。该策略在节省 30% 训练开销的同时实现了强大的思考能力,并且推理耗时仅为同规格深度思考模型的42.9%-68.2%,在快速响应与全面分析间取得了可控平衡。

统一的 3D-Resampler 架构实现高密度视频压缩

Takeawys:

时间 – 空间 统一联合压缩可充分挖掘多模态数据的冗余性,实现更的高视觉压缩率。

统一的视觉架构可促进感知能力从图像到视频的无缝迁移。

8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

传统多模态模型在处理视频时面临的核心挑战是性能与效率的权衡。

为突破这一困境,MiniCPM-V 4.5 引入了创新的3D-Resampler 架构。它不再将视频视为独立的静态帧序列,而是同时在时空方向上压缩,利用连续帧间的高度冗余信息,实现了革命性的效率提升。

该架构能将 6 个连续的视频帧(448 × 448 分辨率)高效压缩为仅 64 个视觉 Token,实现了惊人的96 倍视觉压缩率,而多数主流模型处理同等数据需消耗 1,536Token。这一设计让模型在不增加语言模型计算成本的前提下,能够感知和处理更多视频帧,且能获得更好的视频理解能力。

8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

更重要的是,3D-Resampler 实现了图像与视频处理的统一编码,确保了知识和能力的无缝迁移。

一个有力的证明是,尽管没有经过专门的视频 OCR 数据训练,模型依然展现出良好的视频 OCR 能力。

同时,由于统一的架构设计和参数共享,从 2D 扩展至 3D-Resampler 仅需一个轻量化的 SFT 阶段,极大地降低了训练成本。

高效知识学习:面向文档的统一 OCR 和知识学习范式

Takeawys:

对文档图像文本进行不同程度的可见性扰动,即可将知识学习、OCR 能力高效地统一到单个学习目标中。

多模态模型在处理文档时,普遍采用两种独立的低效方法。

一方面,文档知识学习高度依赖脆弱的外部解析工具,不仅效率低下,解析错误还常常引入噪声,需要大量数据工程进行修复。

另一方面,OCR 能力学习虽受益于数据增强,但过度的图像扰动又会导致文字无法辨认,反而诱发模型产生幻觉。

对于以上困难,团队提出一条核心洞察:

文档知识获取和文字识别的关键区别,仅在于图像中文字的可见度。

基于此,MiniCPM-V 4.5 使用了一种统一的 OCR 和知识学习范式:对文档图像中的文字区域施加不同程度的损坏,利用 ” 从损坏图像中重建原文 ” 这一学习目标同时学习两种任务。如下图所示,通过控制损坏程度,团队创造了三种任务:

轻微损坏 ( 可靠 OCR 训练 ) :文字尚可辨认,模型专注于学习准确、鲁棒的文字识别。

中度损坏 ( 综合推理 ) :字符变得模糊,模型可以结合框内视觉线索和上下文进行综合推理和重建原文。

高度损坏 ( 知识学习 ) :文字被完全抹除,模型被强制依赖上下文图表和文字以及模型内部知识来重建原文,从而实现真正的文档级理解。

8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

这一方法彻底摆脱了对外部解析器的依赖,杜绝了其引入的噪声和工程负担。

同时,它智能地将知识学习和 OCR 目标无缝融合在同一训练批次中,极大地提升了数据利用率和训练效率。

团队在轻量训练设置下对该学习范式进行了消融验证,结果说明面向文档的统一 OCR 和知识学习范式有效提升了模型在文档理解、知识推理、文字识别上的能力:

8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

高效强化学习:可控混合快速 / 深度思考的多模态强化学习

MiniCPM-V 4.5 通过混合强化学习方法,实现了快速思考和深度思考两种模式的平衡优化。

快速思考模式面向高频日常使用场景,提供高效的推理体验;深度思考模式则专注于复杂任务的深入分析。

模型通过少量高难度、高质量的推理样本进行冷启动,快速掌握深度思考所必需的反思与回溯能力。

进入强化学习阶段,两种模式被同时优化,不仅显著增强了深度思考模式的性能,更实现了两种模式间推理能力的交叉泛化。模型在节省约 30% 采样开销的前提下,仍能达到和仅深思考强化学习的模型相当的表现。

8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

同时,团队引入了 RLPR 与 RLAIF-V 两项技术:

RLPR 解决了通用域问题的开放式回答(如答案表述相对复杂、含物理单位等)难以获得可靠奖励信号的痛点,从模型生成正确答案的概率中获得奖励信号(probability-based reward, PR)。

随着训练步数增加,结合 PR 训练相比常规训练方法的优势会逐渐扩大 .

8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

RLAIF-V 有效抑制了模型的幻觉现象,通过逐个检验模型输出答案中事实陈述的可靠度并构建偏好数据用于 DPO,提升了多种多模态理解任务的可靠性。

8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

评测结果

MiniCPM-V 4.5 在 OpenCompass 综合评测中取得了 77.0 的平均分。该评测涵盖了 8 个主流多模态基准的综合指标。

尽管仅有 8B 参数规模,模型在视觉语言能力上超越了 GPT-4o-latest 等广泛使用的专有模型,以及 Qwen2.5-VL72B 等强大的开源模型,成为 30B 参数以下性能最佳的开源多模态大模型。

8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

MiniCPM-V 4.5 在提供 SOTA 级多模态表现的同时,具有最佳的推理效率和最低的推理开销。

在混合思考模式下,MiniCPM-V 4.5 在推理耗时仅为同规格深度思考模型的 42.9%-68.2% 的同时获得了更好的 OpenCompass 分数。

同时,得益于高密度视频压缩技术,在覆盖短、中、长三种类型的视频理解评测集 Video-MME 上,MiniCPM-V 4.5 时间开销(未计算模型抽帧时间)仅为同级模型的 1/10。

8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

模型实测效果展示

8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

One more thing

作为 MiniCPM-V 系列的最新成果,MiniCPM-V 4.5 系统性地从架构、数据和训练三大维度为解决多模态大模型的效率瓶颈提供了一条可行路径。

HuggingFace 大佬表示,仅有 8B 参数的模型也能擅长事实纠正和思考,确实值得更多的关注。

8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

作为清华大学自然语言处理实验室和面壁智能联合开发的系列模型,MiniCPM-V 和 MiniCPM-o 系列已经获得了广泛的学术和产业认可。

技术报告地址:https://github.com/OpenBMB/MiniCPM-V/blob/main/docs/MiniCPM_V_4_5_Technical_Report.pdf

GitHub:https://github.com/OpenBMB/MiniCPM-o

HuggingFace:https://huggingface.co/openbmb/MiniCPM-V-4_5

ModelScope:https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

— 完 —

点亮星标

科技前沿进展每日见

以上就是8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/72562.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
JavaScript 查找距离给定点最近的 N 个点
上一篇 2025年11月13日 17:09:14
windows8如何查看端口占用情况_windows8端口占用查询方法
下一篇 2025年11月13日 17:11:16

相关推荐

  • Go语言中切片到数组的转换:理解类型差异与实现策略

    go语言中的数组和切片是两种截然不同的数据类型,数组是固定大小的值类型,而切片是动态大小的引用类型,其内部包含指向底层数组的指针、长度和容量。这种根本性的差异导致go语言不允许直接将切片隐式转换为数组。本文将深入探讨这两种类型的内存语义、传递机制以及如何通过显式复制实现切片到数组的转换,以符合go语…

    2026年5月10日
    000
  • Pandas DataFrame中基于字符串数字的高级条件赋值技巧

    本文深入探讨了在Pandas DataFrame中,如何根据现有列(如字符串中的数字部分)的特定条件,高效地创建或更新新列。文章将详细介绍如何结合str.extract、pd.cut和np.log10等工具,实现基于数值范围或数字位数的高级条件赋值,从而提升数据处理的灵活性和效率。 在数据分析和处理…

    2026年5月10日
    000
  • 如何通过不可变数据结构提升React等框架的应用性能?

    使用不可变数据结构可提升React性能,因它确保状态更新可预测、避免引用共享导致的bug;通过concat、扩展运算符等创建新对象,使PureComponent和React.memo的浅比较更高效;每次更新生成新状态快照,便于调试、回溯与撤销;结合useMemo、useCallback可稳定依赖项,…

    2026年5月10日
    000
  • c++的类模板参数推导(CTAD)是什么_c++17简化模板对象创建

    CTAD 解决了类模板创建对象时需显式指定类型的问题,使代码更简洁;例如 std::pair p(42, “hello”) 可自动推导为 std::pair;其通过构造函数参数推导模板类型,适用于标准库如 tuple、optional 等,但需注意歧义构造和特化场景。 类模板…

    2026年5月10日
    000
  • 响应式布局中Flex容器内图片与文本错位问题的解决方案

    本文旨在解决在响应式网页设计中,当图片和文本并排置于Flex容器内时,由于不当的max-width设置导致的元素错位问题。通过调整Flex子元素的max-width以确保它们能和谐共存,并结合object-fit属性优化图片缩放效果,从而实现适配移动设备的流畅布局。 理解Flexbox布局与响应式图…

    2026年5月10日
    200
  • CEX充提币:中心化交易所使用技巧

    在加密货币交易的浩瀚宇宙中,选择一家可靠、高效且安全便捷的中心化交易所(cex)是每位投资者迈向成功的关键一步。尤其对于初入加密世界的新手而言,cex不仅是进入市场的大门,更是其资产的守护者。而对于经验丰富的交易者来说,深入掌握cex的充提币技巧,则意味着能够更灵活地调配资金,抓住稍纵即逝的市场机遇…

    用户投稿 2026年5月10日
    100
  • PHP缓存环境配置_PHP缓存环境配置处理方法

    启用OPcache、APCu、Redis及Nginx FastCGI缓存可显著提升PHP性能:1. 开启OPcache并配置内存与校验参数;2. 安装APCu用于用户数据缓存;3. 部署Redis实现分布式缓存;4. 配置Nginx FastCGI缓存减少PHP重复执行,最终加快页面响应并降低服务器…

    2026年5月10日
    000
  • c++的static关键字有什么作用_c++ static成员变量与函数

    static关键字用于声明类的静态成员变量和函数,实现数据共享与类级操作。1. 静态成员变量属于类而非对象,所有实例共享同一副本,需在类外定义初始化(除非内联或constexpr),可通过类名直接访问;2. 静态成员函数无this指针,仅访问静态成员,可作为工具函数或工厂方法通过类名调用;3. 局部…

    2026年5月10日
    200
  • HTML5如何上传文档_HTML5文档上传实现与文件传输技巧【指南】

    HTML5文档上传需结合input file控件、XMLHttpRequest进度监控、Fetch+AbortController中断控制、前端校验及分片断点续传。 。 2、为该元素绑定 change 事件监听器,当用户选择文件后触发回调函数。 立即学习“前端免费学习笔记(深入)”; 3、在回调中通…

    2026年5月10日
    000
  • PHP sprintf 函数中属性值提取与格式化指南

    本文旨在解决在php中使用`sprintf`函数时,将完整的html属性字符串误用于需要单一属性值(如类名)的场景。通过分析常见错误,我们展示了如何直接从数组中提取目标属性的原始值,并结合空合并运算符`??`提升代码健壮性,从而避免输出格式不符或潜在的错误,确保`sprintf`正确生成预期html…

    2026年5月10日
    000
  • HTML如何设置全屏控制样式?fullscreen-controls伪类的作用是什么?

    要实现全屏控制样式,最有效的方法是放弃原生控件并创建自定义ui,具体步骤为:1. 使用javascript的fullscreen api(如element.requestfullscreen()和document.exitfullscreen())控制全屏状态;2. 隐藏原生控件,例如通过设置vid…

    2026年5月10日
    000
  • Service Worker架构:高效令牌处理与网络请求同步实现

    本文探讨了在Service Worker中高效管理认证令牌的策略,特别是如何处理令牌的周期性更新以及确保所有网络请求都能同步获取并使用最新令牌。核心方案是利用JavaScript Promise的特性,通过替换Promise对象而非修改其状态,实现请求的等待与令牌的动态更新,并提供了健壮的错误处理机…

    2026年5月10日
    000
  • 深入理解Python sys.argv:命令行参数处理与常见错误解析

    本文详细解析python中`sys.argv`模块在处理命令行参数时的核心机制,特别是其长度计算和索引规则。我们将通过示例代码阐明`sys.argv[0]`代表脚本名称,而后续元素才是用户提供的参数,从而纠正常见的参数数量判断错误。同时,提供实用的调试技巧和更专业的参数解析方案,帮助开发者有效管理p…

    2026年5月10日
    000
  • PHP字符串关键字高亮与多重匹配策略

    本教程旨在解决在php中对字符串中的多个关键字进行高亮显示时遇到的常见问题,特别是当关键字存在重叠或包含关系时。文章将详细介绍如何利用`preg_replace`结合正则表达式、`preg_quote`进行关键字转义,并通过对关键字列表进行长度排序来确保所有目标关键字(包括包含关系的长短关键字)都能…

    2026年5月10日
    000
  • 组件化开发:用C++20 Modules重构百万行代码库

    组件化开发:用C++20 Modules重构百万行代码库组件化开发:用C++20 Modules重构百万行代码库组件化开发:用C++20 Modules重构百万行代码库组件化开发:用C++20 Modules重构百万行代码库

    使用c++++20 modules重构百万行代码库的目标是提升代码清晰度、编译速度和维护效率。1. c++20 modules解决了传统头文件的编译慢、命名冲突和宏污染问题,通过“引用”方式智能处理依赖。2. 模块划分应遵循高内聚、低耦合、职责单一和可复用原则,按业务功能拆分如网络通信、数据处理等模…

    2026年5月10日 用户投稿
    000
  • 理解元类创建的类的类型

    本文旨在阐明使用元类创建类时,类类型为何是 type 而非元类本身。通过分析元类的 __new__ 方法,解释了直接调用 type 和使用 super() 的区别,并提供示例代码帮助读者深入理解元类的运作机制。 当使用元类创建类时,一个常见的疑问是:为什么创建出来的类的类型是 type 而不是元类本…

    2026年5月10日
    000
  • PHP 工厂模式实战:避免构造函数陷阱与正确实现

    本文深入探讨php中工厂模式的正确实现,重点指出将对象创建逻辑置于构造函数中的常见误区,这会导致返回`null`或不期望的对象实例。教程将详细解释php构造函数的工作原理,并演示如何通过使用静态方法来优雅地构建工厂,确保模式的有效性和代码的健壮性。 引言:理解工厂模式 工厂模式(Factory Pa…

    2026年5月10日
    200
  • HTML表格数据动态过滤教程

    本文详细介绍了如何使用javascript和jquery实现html表格的客户端动态过滤功能。通过识别并纠正常见的html结构错误,特别是`tbody`和`table`元素的id应用,文章提供了一个高效且易于理解的过滤脚本。教程涵盖了事件监听、输入值获取、行遍历与显示/隐藏逻辑,并强调了`slice…

    2026年5月10日
    000
  • Golang使用os.FileInfo获取文件属性实践

    答案:os.FileInfo接口用于获取文件元信息,通过os.Stat()获取文件属性,结合os.ReadDir()可高效遍历目录,利用Mode()可判断权限与文件类型,适用于文件管理等场景。 在Go语言中,os.FileInfo 是一个接口,用于描述文件的元信息,比如文件名、大小、权限、修改时间等…

    2026年5月10日
    000
  • xml如何实现条件查询功能 在xml中实现高级条件查询的技巧

    在xml中实现条件查询可通过多种方法完成。1. 使用xpath实现基本条件查询,通过类似//book[@category=’fiction’]的表达式筛选满足特定属性值的节点;2. 结合编程语言如python的lxml库,解析xml后遍历节点并进行复杂条件判断,例如检查文本内…

    2026年5月10日
    000

发表回复

登录后才能评论
关注微信