阿里 8B 模型拿下多页文档理解新 SOTA，324 个视觉 token 表示一页，缩减 80%

程序猿 • 2025年11月8日 03:33:20 • 用户投稿 • 阅读 1

高效多页文档理解，阿里通义实验室 mplug 团队拿下新 sota。

最新多模态大模型mPLUG-DocOwl 2，仅以 324 个视觉 token 表示单个文档图片，在多个多页文档问答 Benchmark 上超越此前 SOTA 结果。

并且在 A100-80G 单卡条件下，做到分辨率为 1653×2339 的文档图片一次性最多支持输入 60 页！

△单个 A100-80G 最多能支持文档图片 ( 分辨率 =1653×2339 ) 的数量以及首包时间

mPLUG-DocOwl 是利用多模态大模型进行 OCR-free 文档理解的一系列前沿探索工作。

DocOwl 1.0 首次提出基于多模态大模型进行文档理解方面的多任务指令微调；

UReader 首次提出利用切图的策略来处理高清文档图片，成为目前高清图片理解的主流方案；

DocOwl 1.5 提出统一结构学习，将多个 bechmark 的开源效果提升超过 10 个点，成为多模态大模型在文档理解方面的主要对比基准。

随着文档图片的分辨率以及切图数量的不断增加，开源多模态大模型的文档理解性能有了显著提升，然而这也导致视觉特征在大模型解码时占用了过多的视觉 token，造成了过高的显存占用以及过长的首包时间。

主流模型在编码时一般动辄需要上千视觉 token，才能还原所有细节。这导致每张 A100-80G 只能塞 7 张左右的文档图，严重影响 AI 文档理解的效果和成本。

作为 mPLUG-DocOwl 系列的最新迭代，DocOwl 2 在模型结构和训练策略上做出大胆创新：

在结构上，仅用 324 个视觉 token 表示每页高清文档图片，大幅节省显存、降低首包时间。

在训练上，采用三阶段训练框架，兼顾多页和单页文档问答效果，具备多页文字识别、多页文档结构解析以及带有相关页码的详细解释能力。

模型结构

文档图片相比一般图片之所以显著消耗更多视觉 token，主要是为了编码图片中所有的文字信息。

考虑到目前所有的多模态大模型都会将视觉特征对齐到文本空间，且自然语言处理领域相关研究已经证明文本信息可以显著压缩并保留住绝大部分语义，作者认为高清文档图片的视觉 token 在和 LLM 对齐后同样可以进行较大程度的压缩同时保留住绝大部分布局信息和文字信息。

文档图片中，同一个布局区域的文字因为语义连贯，更容易进行归纳总结。引入布局信息进行压缩指导可以降低压缩难度，减少信息丢失。

恰好，当一张高清文档图片降采样为低分辨率全局图后，文字信息丢失但是布局信息仍得以保留。

因此在只使用一个低分辨率视觉编码器的情况下，DocOwl 2 提出在视觉文本对齐之后增加一个 High-resolution DocCompressor，其使用低分辨率的全局图作为压缩指导，使用切图的高分辨率特征作为压缩对象，仅通过两层 cross attention，将切图的高分辨率特征压缩为 324 个 token。

△图 2: DocOwl 2 模型结构图

DocOwl 2 整体延续了 DocOwl 1.5 的结构，主要包括高分辨率视觉编码，高分辨率压缩以及语言模型多模态理解三个部分。

对于一篇多页文档，每一页会独立进行高分辨率视觉编码和高分辨率压缩。

具体来说，每一页文档图片会采用 Shape-adaptive Cropping 模块在考虑形状和大小的情况下找到一个做合适的切割方式进行切片，同时将原图放缩为一个低分辨率全局图。随后每个切片和全局图会单独经过 ViT 提取视觉特征特征，以及 H-Reducer 水平合并 4 个特征并将纬度对齐到 LLM。之后，DocOwl2 会采用 High-resolution DocCompressor 对视觉特征进行压缩。

低分辨率的全局图片特征作为压缩指导（query），以高分辨率切片特征作为压缩对象（key/value），DocCompressor 由两层 cross-attention layer 组成。

考虑到切片过程中布局信息被破坏，多个切片的特征图首先会按照切片在原图中位置进行拼接重组。由于低分辨率全局图片的每一个特征只编码了部分区域的布局信息，如果让每个低分辨率特征都关注所有高分辨率特征不仅增加压缩难度，而且大大增加了计算复杂度。

因此，针对全局图的每一个视觉特征，根据其在原图中的相对位置，从重组后的切片特征中可以挑选出同一位置的一组高清特征，其数量和切片的数量一致，并可能来自多个切片。

经过压缩后，任意形状的文档图片的 token 数量都等同于低分辨率全局图的 token 数量。DocOwl2 的单个切片以及全局图片都采用了 504×504 的分辨率，因此，最终单个文档图片的 token 数量为 ( 504×504 ) / ( 14×14 ) /4=324 个。

DocCompressor 添加在已有多模态大模型的对齐结构之后，并不需要对其他结构做修改，这篇工作中，作者以 DocOwl 1.5 作为主要结构，但理论上，其适用于目前所有的高分辨率多模态大模型，例如 InternVL2 或 Qwen2-VL。

模型训练：单页多页分开预训练

DocOwl 2 的训练由三个过程组成：单页预训练，多页预训练，以及多任务指令微调。

单页预训练采用了 DocOwl 1.5 的单图结构化解析数据 DocStruct4M，包括文档解析、表格解析、Chart 解析、以及自然图场景文本解析等，主要目的在于保证压缩之后的视觉 token 仍然能还原出图片中的文字和布局信息。

多页预训练添加了 Multi-page Text Parsing 任务和 Multi-page Text Lookup 两个任务。前者对于多页文档图，给定 1-2 页的页码，要求模型解析出其中的文字内容；后者则给定文字内容，要求模型给出文字所在的页码。多页预训练的目标主要在于增加模型对于多页输入的解析能力以及区分能力。

经过两轮预训练之后，作者整合并构建了单页文档理解和多页文档理解的问答数据进行联合指令微调，既包含简洁回复，也包含给出页码依据的详细推理。同时，任务形式既有围绕某几页的自由问答，也有整体文档结构的解析。

DocOwl 2 的训练数据如下图所示：

实验结果

在多页文档理解 benchmark 上，相比近期提出的同时具备多图能力和文档理解能力的模型，DocOwl 2 在以显著更少的视觉 token、更快的首包时间达到了多页文档理解的 SOTA 效果。

在单页文档理解任务上，相比相似训练数据和模型结构的 DocOwl 1.5，DocOwl 2 缩减了超过 80% 的视觉 token 且维持了绝大部分性能，尤其在最常评测的文档数据集 DocVQA 上只有 2% 的微弱下降。

即使相比当下最优的 MLLM，DocOwl2 也在常见的文档数据集 DocVQA，图表数据集 ChartQA 以及场景文本数据集 TextVQA 上以更少的 token 和更快的首包时间的前提下达到了 >80% 的性能。

从样例中可以看出，对于 A4 大小的文档图片，即使只用 324 个 token 编码，DocOwl2 依然能够清晰的识别图片中的文字，或根据文字准确定位到具体的页码。

△图 3: 多页文字解析

△图 4: 多页文字查找

除了解析文本，DocOwl 2 对于多页文档的层级结构也能用 json 的格式表示出来

△图 5: 文档结构解析

对于文档问答，DocOwl 2 不仅能给出答案，还能给出详细的解释以及相关的页码。

因为具备多图理解能力，DocOwl 2 也能理解文字丰富的新闻视频，同时给出答案所在的帧。

总结：

mPLUG-DocOwl 2 聚焦多页文档理解，兼顾效果和效率，在大幅缩减单页视觉 token 的前提下实现了多页文档理解的 SOTA 效果。

仅用 324 个 token 表示文档图片也能还原出图片的文字信息和布局信息，验证了当下多模态大模型几千的文档图片视觉表征存在较大的 token 冗余和资源的浪费。

mPLUG 团队会持续优化 DocOwl 并进行开源，同时希望 DocOwl 2 能抛砖引玉，让更多的研究人员关注到多模态大模型对于高清文档图片的冗余编码问题，欢迎大家持续关注和友好讨论！

论文 :

https://arxiv.org/abs/2409.03420

代码 :

https://github.com/X-PLUG/mPLUG-DocOwl

以上就是阿里 8B 模型拿下多页文档理解新 SOTA，324 个视觉 token 表示一页，缩减 80%的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/48033.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

苹果用户如何快速掌握DeepSeek实用教程

上一篇 2025年11月8日 03:32:19

探索应用开发的无限可能：三维解剖学的魅力

下一篇 2025年11月8日 03:33:47

好文分享

HTML、CSS 和 JavaScript 中的简单侧边栏菜单

构建一个简单的侧边栏菜单是一个很好的主意，它可以为您的网站添加有价值的功能和令人惊叹的外观。侧边栏菜单对于客户找到不同项目的方式很有用，而不会让他们觉得自己有太多选择，从而创造了简单性和秩序。今天，我将分享一个简单的 HTML、CSS 和 JavaScript 源代码来创建一个简单的侧边栏菜单。…

程序猿
2025年12月24日
5000
好文分享

前端代码辅助工具：如何选择最可靠的AI工具？

前端代码辅助工具：可靠性探讨对于前端工程师来说，在HTML、CSS和JavaScript开发中借助AI工具是司空见惯的事情。然而，并非所有工具都能提供同等的可靠性。个性化需求关于哪个AI工具最可靠，这个问题没有一刀切的答案。每个人的使用习惯和项目需求各不相同。以下是一些影响选择的重要因素：立…

程序猿
2025年12月24日
1000
好文分享

带有 HTML、CSS 和 JavaScript 工具提示的响应式侧边导航栏

响应式侧边导航栏不仅有助于改善网站的导航，还可以解决整齐放置链接的问题，从而增强用户体验。通过使用工具提示，可以让用户了解每个链接的功能，包括设计紧凑的情况。在本教程中，我将解释使用 html、css、javascript 创建带有工具提示的响应式侧栏导航的完整代码。对于那些一直想要一个干净、简…

程序猿
2025年12月24日
1000
好文分享

布局 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在这里查看视觉效果：固定导航 – 布局 – codesandbox两列 – 布局 – codesandbox三列 – 布局 – codesandbox圣杯 &#8…

程序猿
2025年12月24日
1000
好文分享

隐藏元素 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在此处查看隐藏元素的视觉效果 – codesandbox 隐藏元素 hiding elements hiding elements hiding elements hiding elements hiding element…

程序猿
2025年12月24日
5000
居中 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在此处查看垂直中心 – codesandbox 和水平中心的视觉效果。通过 css 居中垂直居中 centering centering centering centering centering centering立即…

程序猿
2025年12月24日 • 好文分享
4000
好文分享

如何在 Laravel 框架中轻松集成微信支付和支付宝支付？

如何用 laravel 框架集成微信支付和支付宝支付问题：如何在 laravel 框架中集成微信支付和支付宝支付？回答：建议使用 easywechat 的 laravel 版，easywechat 是一个由腾讯工程师开发的高质量微信开放平台 sdk，已被广泛地应用于许多 laravel 项目中…

程序猿
2025年12月24日
1000
好文分享

如何在移动端实现子 div 在父 div 内任意滑动查看？

如何在移动端中实现让子 div 在父 div 内任意滑动查看在移动端开发中，有时我们需要让子 div 在父 div 内任意滑动查看。然而，使用滚动条无法实现负值移动，因此需要采用其他方法。解决方案：使用绝对布局（absolute）或相对布局（relative）：将子 div 设置为绝对或相对定…

程序猿
2025年12月24日
1000
好文分享

移动端嵌套 DIV 中子 DIV 如何水平滑动？

移动端嵌套 DIV 中子 DIV 滑动在移动端开发中，遇到这样的问题：当子 DIV 的高度小于父 DIV 时，无法在父 DIV 中水平滚动子 DIV。无限画布要实现子 DIV 在父 DIV 中任意滑动，需要创建一个无限画布。使用滚动无法达到负值，因此需要使用其他方法。相对定位一种方法是将子…

程序猿
2025年12月24日
1000
好文分享

移动端项目中，如何消除rem字体大小计算带来的CSS扭曲？

移动端项目中消除rem字体大小计算带来的css扭曲在移动端项目中，使用rem计算根节点字体大小可以实现自适应布局。但是，此方法可能会导致页面打开时出现css扭曲，这是因为页面内容在根节点字体大小赋值后重新渲染造成的。解决方案：要避免这种情况，将计算根节点字体大小的js脚本移动到页面的最前面，即…

程序猿
2025年12月24日
0000
好文分享

Nuxt 移动端项目中 rem 计算导致 CSS 变形，如何解决？

Nuxt 移动端项目中解决 rem 计算导致 CSS 变形在 Nuxt 移动端项目中使用 rem 计算根节点字体大小时，可能会遇到一个问题：页面内容在字体大小发生变化时会重绘，导致 CSS 变形。解决方案：可将计算根节点字体大小的 JS 代码块置于页面最前端的标签内，确保在其他资源加载之前执…

程序猿
2025年12月24日
2000
好文分享

Nuxt 移动端项目使用 rem 计算字体大小导致页面变形，如何解决？

rem 计算导致移动端页面变形的解决方法在 nuxt 移动端项目中使用 rem 计算根节点字体大小时，页面会发生内容重绘，导致页面打开时出现样式变形。如何避免这种现象？解决方案：移动根节点字体大小计算代码到页面顶部，即 head 中。原理： flexível.js 也遇到了类似问题，它的解决…

程序猿
2025年12月24日
0000
好文分享

形状 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在此处查看 codesandbox 的视觉效果。通过css绘制各种形状如何在 css 中绘制正方形、梯形、三角形、异形三角形、扇形、圆形、半圆、固定宽高比、0.5px 线？ shapes 0.5px line .square { w…

程序猿
2025年12月24日
0000
好文分享

有哪些美观的开源数字大屏驾驶舱框架？

开源数字大屏驾驶舱框架推荐问题：有哪些美观的开源数字大屏驾驶舱框架？答案：资源包 [弗若恩智能大屏驾驶舱开发资源包](https://www.fanruan.com/resource/152) 软件 [弗若恩报表 – 数字大屏可视化组件](https://www.fanruan.c…

程序猿
2025年12月24日
0000
好文分享

网站底部如何实现飘彩带效果？

网站底部飘彩带效果的 js 库实现许多网站都会在特殊节日或活动中添加一些趣味性的视觉效果，例如点击按钮后散发的五彩缤纷的彩带。对于一个特定的网站来说，其飘彩带效果的实现方式可能有以下几个方面：以 https://dub.sh/ 网站为例，它底部按钮点击后的彩带效果是由 javascript 库实…

程序猿
2025年12月24日
0000
网站彩带效果背后是哪个JS库？

网站彩带效果背后是哪个js库？当你访问某些网站时，点击按钮后，屏幕上会飘出五颜六色的彩带，营造出庆祝的氛围。这些效果是通过使用javascript库实现的。问题：哪个javascript库能够实现网站上点击按钮散发彩带的效果？答案：根据给定网站的源代码分析：可以发现，该网站使用了以下js…

程序猿
好文分享 2025年12月24日
1000
好文分享

产品预览卡项目

这个项目最初是来自 Frontend Mentor 的挑战，旨在使用 HTML 和 CSS 创建响应式产品预览卡。最初的任务是设计一张具有视觉吸引力和功能性的产品卡，能够无缝适应各种屏幕尺寸。这涉及使用 CSS 媒体查询来确保布局在不同设备上保持一致且用户友好。产品卡包含产品图像、标签、标题、描述和…

程序猿
2025年12月24日
1000
好文分享

如何利用 echarts-gl 绘制带发光的 3D 图表？

如何绘制带发光的 3d 图表，类似于 echarts 中的示例？为了实现类似的 3d 图表效果，需要引入 echarts-gl 库：https://github.com/ecomfe/echarts-gl。 echarts-gl 专用于在 webgl 环境中渲染 3d 图形。它提供了各种 3d 图…

程序猿
2025年12月24日
0000
好文分享

如何在 Element UI 的 el-rate 组件中实现 5 颗星 5 分制与百分制之间的转换？

如何在el-rate中将5颗星5分制的分值显示为5颗星百分制？要实现该效果，只需使用 el-rate 组件的 allow-half 属性。在设置 allow-half 属性后，获得的结果乘以 20 即可得到0-100之间的百分制分数。如下所示： score = score * 20; 动态显示鼠标…

程序猿
2025年12月24日
1000
好文分享

CSS 最佳实践：后端程序员重温 CSS 时常见的三个疑问？

CSS 最佳实践：提升代码质量作为后端程序员，在重温 CSS/HTML 时，你可能会遇到一些关于最佳实践的问题。以下将解答三个常见问题，帮助你编写更规范、清晰的 CSS 代码。 1. margin 设置策略当相邻元素都设置了 margin 时，通常情况下应为上一个元素设置 margin-bott…

程序猿
2025年12月24日
0000

发表回复

登录后才能评论

阿里 8B 模型拿下多页文档理解新 SOTA，324 个视觉 token 表示一页，缩减 80%

关于作者

相关推荐

发表回复