8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

行业首个具备 ” 高刷 ” 视频理解能力的多模态模型minicpm-v 4.5的技术报告正式发布!

8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

报告提出统一的 3D-Resampler 架构实现高密度视频压缩、面向文档的统一 OCR 和知识学习范式、可控混合快速 / 深度思考的多模态强化学习三大技术。

基于这些关键技术,MiniCPM-V 4.5 在视频理解、图像理解、OCR、文档解析等多项任务上达到同级 SOTA 水平,不仅以 8B 的参数规模超越 GPT-4o-latest 和 Qwen2.5-VL-72B,更在推理速度上具有显著优势。

模型一经开源,就广受社区好评,并直接登上 HuggingFace Trending TOP2。

接下来,就和我们一起看看报告里讲了什么。

研究背景

随着多模态大模型的迅速发展,其在模型架构、数据工程和训练方法上的高昂成本和效率瓶颈,正成为其广泛应用和技术迭代的核心障碍。

而在移动设备和边缘计算场景中,如何在保持出色性能的同时实现高效推理,给多模态模型研究和应用提出了更加严峻的挑战。

总的来说,MiniCPM-V 4.5 通过系统性的技术创新攻克三大效率难题:

针对模型架构:为解决处理图像与视频时产生的海量视觉 Token,团队采用了统一 3D-Resampler 架构,大幅降低了视觉编码的 Token 开销,实现最高96 倍的压缩率。在 VideoMME 上,团队以相比 Qwen2.5-VL7B 仅46.7%的显存和8.7%的时间开销,获得了 30B 以下参数量模型的最优性能。

针对训练数据:为解决多模态文档处理中对不可靠外部解析工具的依赖和 OCR 数据工程设计难题,团队提出了统一文档 OCR 与知识学习的新范式,使模型能直接从复杂文档图像中学习,显著降低了数据噪声和数据工程复杂度。最终在 OmniDocBench 上取得了通用 MLLM 中的最好表现。

针对训练方法:为平衡深度思考与日常即时使用两种需求,团队使用了混合强化学习策略。该策略在节省 30% 训练开销的同时实现了强大的思考能力,并且推理耗时仅为同规格深度思考模型的42.9%-68.2%,在快速响应与全面分析间取得了可控平衡。

统一的 3D-Resampler 架构实现高密度视频压缩

Takeawys:

时间 – 空间 统一联合压缩可充分挖掘多模态数据的冗余性,实现更的高视觉压缩率。

统一的视觉架构可促进感知能力从图像到视频的无缝迁移。

8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

传统多模态模型在处理视频时面临的核心挑战是性能与效率的权衡。

为突破这一困境,MiniCPM-V 4.5 引入了创新的3D-Resampler 架构。它不再将视频视为独立的静态帧序列,而是同时在时空方向上压缩,利用连续帧间的高度冗余信息,实现了革命性的效率提升。

该架构能将 6 个连续的视频帧(448 × 448 分辨率)高效压缩为仅 64 个视觉 Token,实现了惊人的96 倍视觉压缩率,而多数主流模型处理同等数据需消耗 1,536Token。这一设计让模型在不增加语言模型计算成本的前提下,能够感知和处理更多视频帧,且能获得更好的视频理解能力。

8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

更重要的是,3D-Resampler 实现了图像与视频处理的统一编码,确保了知识和能力的无缝迁移。

一个有力的证明是,尽管没有经过专门的视频 OCR 数据训练,模型依然展现出良好的视频 OCR 能力。

同时,由于统一的架构设计和参数共享,从 2D 扩展至 3D-Resampler 仅需一个轻量化的 SFT 阶段,极大地降低了训练成本。

高效知识学习:面向文档的统一 OCR 和知识学习范式

Takeawys:

对文档图像文本进行不同程度的可见性扰动,即可将知识学习、OCR 能力高效地统一到单个学习目标中。

多模态模型在处理文档时,普遍采用两种独立的低效方法。

一方面,文档知识学习高度依赖脆弱的外部解析工具,不仅效率低下,解析错误还常常引入噪声,需要大量数据工程进行修复。

另一方面,OCR 能力学习虽受益于数据增强,但过度的图像扰动又会导致文字无法辨认,反而诱发模型产生幻觉。

对于以上困难,团队提出一条核心洞察:

文档知识获取和文字识别的关键区别,仅在于图像中文字的可见度。

基于此,MiniCPM-V 4.5 使用了一种统一的 OCR 和知识学习范式:对文档图像中的文字区域施加不同程度的损坏,利用 ” 从损坏图像中重建原文 ” 这一学习目标同时学习两种任务。如下图所示,通过控制损坏程度,团队创造了三种任务:

轻微损坏 ( 可靠 OCR 训练 ) :文字尚可辨认,模型专注于学习准确、鲁棒的文字识别。

中度损坏 ( 综合推理 ) :字符变得模糊,模型可以结合框内视觉线索和上下文进行综合推理和重建原文。

高度损坏 ( 知识学习 ) :文字被完全抹除,模型被强制依赖上下文图表和文字以及模型内部知识来重建原文,从而实现真正的文档级理解。

8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

这一方法彻底摆脱了对外部解析器的依赖,杜绝了其引入的噪声和工程负担。

同时,它智能地将知识学习和 OCR 目标无缝融合在同一训练批次中,极大地提升了数据利用率和训练效率。

团队在轻量训练设置下对该学习范式进行了消融验证,结果说明面向文档的统一 OCR 和知识学习范式有效提升了模型在文档理解、知识推理、文字识别上的能力:

8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

高效强化学习:可控混合快速 / 深度思考的多模态强化学习

MiniCPM-V 4.5 通过混合强化学习方法,实现了快速思考和深度思考两种模式的平衡优化。

快速思考模式面向高频日常使用场景,提供高效的推理体验;深度思考模式则专注于复杂任务的深入分析。

模型通过少量高难度、高质量的推理样本进行冷启动,快速掌握深度思考所必需的反思与回溯能力。

进入强化学习阶段,两种模式被同时优化,不仅显著增强了深度思考模式的性能,更实现了两种模式间推理能力的交叉泛化。模型在节省约 30% 采样开销的前提下,仍能达到和仅深思考强化学习的模型相当的表现。

8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

同时,团队引入了 RLPR 与 RLAIF-V 两项技术:

RLPR 解决了通用域问题的开放式回答(如答案表述相对复杂、含物理单位等)难以获得可靠奖励信号的痛点,从模型生成正确答案的概率中获得奖励信号(probability-based reward, PR)。

随着训练步数增加,结合 PR 训练相比常规训练方法的优势会逐渐扩大 .

8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

RLAIF-V 有效抑制了模型的幻觉现象,通过逐个检验模型输出答案中事实陈述的可靠度并构建偏好数据用于 DPO,提升了多种多模态理解任务的可靠性。

8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

评测结果

MiniCPM-V 4.5 在 OpenCompass 综合评测中取得了 77.0 的平均分。该评测涵盖了 8 个主流多模态基准的综合指标。

尽管仅有 8B 参数规模,模型在视觉语言能力上超越了 GPT-4o-latest 等广泛使用的专有模型,以及 Qwen2.5-VL72B 等强大的开源模型,成为 30B 参数以下性能最佳的开源多模态大模型。

8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

MiniCPM-V 4.5 在提供 SOTA 级多模态表现的同时,具有最佳的推理效率和最低的推理开销。

在混合思考模式下,MiniCPM-V 4.5 在推理耗时仅为同规格深度思考模型的 42.9%-68.2% 的同时获得了更好的 OpenCompass 分数。

同时,得益于高密度视频压缩技术,在覆盖短、中、长三种类型的视频理解评测集 Video-MME 上,MiniCPM-V 4.5 时间开销(未计算模型抽帧时间)仅为同级模型的 1/10。

8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

模型实测效果展示

8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

One more thing

作为 MiniCPM-V 系列的最新成果,MiniCPM-V 4.5 系统性地从架构、数据和训练三大维度为解决多模态大模型的效率瓶颈提供了一条可行路径。

HuggingFace 大佬表示,仅有 8B 参数的模型也能擅长事实纠正和思考,确实值得更多的关注。

8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉

作为清华大学自然语言处理实验室和面壁智能联合开发的系列模型,MiniCPM-V 和 MiniCPM-o 系列已经获得了广泛的学术和产业认可。

技术报告地址:https://github.com/OpenBMB/MiniCPM-V/blob/main/docs/MiniCPM_V_4_5_Technical_Report.pdf

GitHub:https://github.com/OpenBMB/MiniCPM-o

HuggingFace:https://huggingface.co/openbmb/MiniCPM-V-4_5

ModelScope:https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

— 完 —

点亮星标

科技前沿进展每日见

以上就是8B 硬刚 72B!MiniCPM-V 4.5 技术报告正式出炉的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/72562.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月13日 16:58:02
下一篇 2025年11月13日 17:30:35

相关推荐

  • Uniapp 中如何不拉伸不裁剪地展示图片?

    灵活展示图片:如何不拉伸不裁剪 在界面设计中,常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。 对于不同尺寸的图片,可以采用以下处理方式: 极端宽高比:撑满屏幕宽度或高度,再等比缩放居中。非极端宽高比:居中显示,若能撑满则撑满。 然而,如果需要不拉伸不…

    2025年12月24日
    400
  • 如何让小说网站控制台显示乱码,同时网页内容正常显示?

    如何在不影响用户界面的情况下实现控制台乱码? 当在小说网站上下载小说时,大家可能会遇到一个问题:网站上的文本在网页内正常显示,但是在控制台中却是乱码。如何实现此类操作,从而在不影响用户界面(UI)的情况下保持控制台乱码呢? 答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体,并通过在客户端…

    2025年12月24日
    800
  • 如何在地图上轻松创建气泡信息框?

    地图上气泡信息框的巧妙生成 地图上气泡信息框是一种常用的交互功能,它简便易用,能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。 利用地图库的原生功能 大多数地图库,如高德地图,都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现: 高德地图 JS API 参考文…

    2025年12月24日
    400
  • 如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画?

    如何实现元素scrollleft变化时的平滑动画效果? 在许多网页应用中,滚动容器的水平滚动条(scrollleft)需要频繁使用。为了让滚动动作更加自然,你希望给scrollleft的变化添加动画效果。 解决方案:scroll-behavior 属性 要实现scrollleft变化时的平滑动画效果…

    2025年12月24日
    000
  • 如何为滚动元素添加平滑过渡,使滚动条滑动时更自然流畅?

    给滚动元素平滑过渡 如何在滚动条属性(scrollleft)发生改变时为元素添加平滑的过渡效果? 解决方案:scroll-behavior 属性 为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码: click the button to slide right!…

    2025年12月24日
    500
  • 如何选择元素个数不固定的指定类名子元素?

    灵活选择元素个数不固定的指定类名子元素 在网页布局中,有时需要选择特定类名的子元素,但这些元素的数量并不固定。例如,下面这段 html 代码中,activebar 和 item 元素的数量均不固定: *n *n 如果需要选择第一个 item元素,可以使用 css 选择器 :nth-child()。该…

    2025年12月24日
    200
  • 使用 SVG 如何实现自定义宽度、间距和半径的虚线边框?

    使用 svg 实现自定义虚线边框 如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片,但是这种方法存在引入外部资源、性能低下的缺点。 为了避免上述问题,可以使用 svg(可缩放矢量图形)来创建纯代码实现。一种方…

    2025年12月24日
    100
  • 如何让“元素跟随文本高度,而不是撑高父容器?

    如何让 元素跟随文本高度,而不是撑高父容器 在页面布局中,经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中,父容器被较高的图片撑开,而文本的高度没有被考虑。本问答将提供纯css解决方案,让图片跟随文本高度,确保父容器的高度不会被图片影响。 解决方法 为了解决这个问题,需要将图片从文档流中脱离…

    2025年12月24日
    000
  • 为什么 CSS mask 属性未请求指定图片?

    解决 css mask 属性未请求图片的问题 在使用 css mask 属性时,指定了图片地址,但网络面板显示未请求获取该图片,这可能是由于浏览器兼容性问题造成的。 问题 如下代码所示: 立即学习“前端免费学习笔记(深入)”; icon [data-icon=”cloud”] { –icon-cl…

    2025年12月24日
    200
  • 如何利用 CSS 选中激活标签并影响相邻元素的样式?

    如何利用 css 选中激活标签并影响相邻元素? 为了实现激活标签影响相邻元素的样式需求,可以通过 :has 选择器来实现。以下是如何具体操作: 对于激活标签相邻后的元素,可以在 css 中使用以下代码进行设置: li:has(+li.active) { border-radius: 0 0 10px…

    2025年12月24日
    100
  • 如何模拟Windows 10 设置界面中的鼠标悬浮放大效果?

    win10设置界面的鼠标移动显示周边的样式(探照灯效果)的实现方式 在windows设置界面的鼠标悬浮效果中,光标周围会显示一个放大区域。在前端开发中,可以通过多种方式实现类似的效果。 使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

    2025年12月24日
    200
  • 为什么我的 Safari 自定义样式表在百度页面上失效了?

    为什么在 Safari 中自定义样式表未能正常工作? 在 Safari 的偏好设置中设置自定义样式表后,您对其进行测试却发现效果不同。在您自己的网页中,样式有效,而在百度页面中却失效。 造成这种情况的原因是,第一个访问的项目使用了文件协议,可以访问本地目录中的图片文件。而第二个访问的百度使用了 ht…

    2025年12月24日
    000
  • 如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果?

    如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果 想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果,可以通过以下途径: CSS 解决方案 DEMO 1: Windows 10 网格悬停效果:https://codepen.io/tr4553r7/pe…

    2025年12月24日
    000
  • 使用CSS mask属性指定图片URL时,为什么浏览器无法加载图片?

    css mask属性未能加载图片的解决方法 使用css mask属性指定图片url时,如示例中所示: mask: url(“https://api.iconify.design/mdi:apple-icloud.svg”) center / contain no-repeat; 但是,在网络面板中却…

    2025年12月24日
    000
  • 如何用CSS Paint API为网页元素添加时尚的斑马线边框?

    为元素添加时尚的斑马线边框 在网页设计中,有时我们需要添加时尚的边框来提升元素的视觉效果。其中,斑马线边框是一种既醒目又别致的设计元素。 实现斜向斑马线边框 要实现斜向斑马线间隔圆环,我们可以使用css paint api。该api提供了强大的功能,可以让我们在元素上绘制复杂的图形。 立即学习“前端…

    2025年12月24日
    000
  • 图片如何不撑高父容器?

    如何让图片不撑高父容器? 当父容器包含不同高度的子元素时,父容器的高度通常会被最高元素撑开。如果你希望父容器的高度由文本内容撑开,避免图片对其产生影响,可以通过以下 css 解决方法: 绝对定位元素: .child-image { position: absolute; top: 0; left: …

    2025年12月24日
    000
  • CSS 帮助

    我正在尝试将文本附加到棕色框的左侧。我不能。我不知道代码有什么问题。请帮助我。 css .hero { position: relative; bottom: 80px; display: flex; justify-content: left; align-items: start; color:…

    2025年12月24日 好文分享
    200
  • HTML、CSS 和 JavaScript 中的简单侧边栏菜单

    构建一个简单的侧边栏菜单是一个很好的主意,它可以为您的网站添加有价值的功能和令人惊叹的外观。 侧边栏菜单对于客户找到不同项目的方式很有用,而不会让他们觉得自己有太多选择,从而创造了简单性和秩序。 今天,我将分享一个简单的 HTML、CSS 和 JavaScript 源代码来创建一个简单的侧边栏菜单。…

    2025年12月24日
    200
  • 前端代码辅助工具:如何选择最可靠的AI工具?

    前端代码辅助工具:可靠性探讨 对于前端工程师来说,在HTML、CSS和JavaScript开发中借助AI工具是司空见惯的事情。然而,并非所有工具都能提供同等的可靠性。 个性化需求 关于哪个AI工具最可靠,这个问题没有一刀切的答案。每个人的使用习惯和项目需求各不相同。以下是一些影响选择的重要因素: 立…

    2025年12月24日
    300
  • 带有 HTML、CSS 和 JavaScript 工具提示的响应式侧边导航栏

    响应式侧边导航栏不仅有助于改善网站的导航,还可以解决整齐放置链接的问题,从而增强用户体验。通过使用工具提示,可以让用户了解每个链接的功能,包括设计紧凑的情况。 在本教程中,我将解释使用 html、css、javascript 创建带有工具提示的响应式侧栏导航的完整代码。 对于那些一直想要一个干净、简…

    2025年12月24日
    000

发表回复

登录后才能评论
关注微信