多页

阿里 8B 模型拿下多页文档理解新 SOTA，324 个视觉 token 表示一页，缩减 80%

高效多页文档理解，阿里通义实验室 mplug 团队拿下新 sota。最新多模态大模型mPLUG-DocOwl 2，仅以 324 个视觉 token 表示单个文档图片，在多个多页文档问答 Benchmark 上超越此前 SOTA 结果。并且在 A100-80G 单卡条件下，做到分辨率为 1653&…

程序猿
2025年11月8日 • 用户投稿
1000

关注微信