旷视开源多模态大模型，支持文档级OCR，覆盖中英文，是否标志着OCR的终结？

程序猿 • 2025年11月7日 21:16:34 • 用户投稿 • 阅读 1

想将一份文档图片转换成markdown格式？

以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤——

这一次，只需一句话命令，多模态大模型Vary直接端到端输出结果：

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

无论是中英文的大段文字：

图片

还包含了公式的文档图片

图片

又或是手机页面截图：

图片

甚至可以将图片中的表格转换成latex格式：

图片

当然，作为一个多模大型模型，保持通用能力是必不可少的

图片

Vary表现出了很大的潜力和极高的上限，OCR可以不再需要冗长的pipline，直接端到端输出，且可以按用户的prompt输出不同的格式如latex 、word 、markdown。

通过强大的语言先验，这种架构可以避免OCR中的易错字，如“杠杆”和“杜杆”等。对于模糊文档，借助语言先验的帮助，也有望实现更强的OCR效果

引发了不少网友的关注的项目一经推出，立即引起了广泛讨论。其中一位网友在看到后直呼“杀爆了！”

图片

这样的效果是如何实现的呢？

受大模型启发打造

目前的多模态大模型几乎都是用CLIP作为Vision Encoder或者说视觉词表。确实，在400M图像文本对训练的CLIP有很强的视觉文本对齐能力，可以覆盖多数日常任务下的图像编码。

但是对于密集和细粒度感知任务，比如文档级别的OCR、Chart理解，特别是在非英文场景，CLIP表现出了明显的编码低效和out-of-vocabulary问题。

纯NLP大模型（如LLaMA）从英文过渡到中文（对大模型来说是“外语”）时，因为原始词表编码中文效率低，必须要扩大text词表才能实现较好的效果。

天工大模型

中国首个对标ChatGPT的双千亿级大语言模型

115 查看详情

研究团队从中得到了启发，正是因为这一特点

现在基于CLIP视觉词表的多模态大模型，面临着同样的问题，遇到“foreign language image”，如一页论文密密麻麻的文字，很难高效地将图片token化。

Vary是为解决这个问题而提供的一种解决方案，它可以在不重新建立原有词表的情况下，高效地扩充视觉词表

图片

不同于现有方法直接用现成的CLIP词表，Vary分两个阶段：

首先，我们将在第一阶段使用一个小型的仅解码器网络，以自回归的方式生成一个强大的新视觉词表

接下来，在第二阶段将新词表和CLIP词表进行融合，以便高效地训练LVLM并赋予其新的特性

以下是Vary的训练方法和模型结构图示：

图片

通过在公开数据集以及渲染生成的文档图表等数据上训练，Vary极大增强了细粒度的视觉感知能力。

在保持vanilla多模态能力的同时，激发出了端到端的中英文图片、公式截图和图表理解能力。

另外，研究团队注意到原本可能需要几千tokens 的页面内容，通过文档图片输入，信息被Vary压缩在了256个图像tokens中，这也为进一步的页面分析和总结提供了更多的想象空间。

目前，Vary的代码和模型均已开源，还给出了供大家试玩的网页demo。

感兴趣的小伙伴可以去试试了～

以上就是旷视开源多模态大模型，支持文档级OCR，覆盖中英文，是否标志着OCR的终结？的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/447051.html

llama ocr 模型页面

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

VSCode 的语义高亮（Semantic Highlighting）与语法高亮有何不同？

上一篇 2025年11月7日 21:16:31

如何重启崩溃的服务 systemd服务自动恢复配置

下一篇 2025年11月7日 21:16:36

好文分享

css如何使页面整体居中

css使页面整体居中的方法是，给整个网页主体添加一个div盒子，并且对这个盒子设置【margin:0 auto】属性即可，例如【#t-warp{margin:0 auto;width:1000px}】。本文操作环境：windows10系统、css 3、thinkpad t480电脑。我们要让整个…

程序猿
2025年12月24日
0000
好文分享

css中如何给整个页面添加背景颜色

css中给整个页面添加背景颜色的方法：可以利用background-color属性来添加背景颜色，如【background-color:yellow;】。background-color属性用于设置一个元素的背景颜色。 background-color属性设置一个元素的背景颜色。元素的背景是元素的…

程序猿
2025年12月24日
0000
如何使用css来控制页面

使用css对页面进行全方位的控制，主要的方法有四种：行内样式、内嵌式、链接式和导入式，下面我们来分别看一下这四种方式：一、行内样式 1、特点：最为直接的一种。 2、使用方式直接在HTML的标记中，使用style属性，将CSS代码写在其中。立即学习“前端免费学习笔记（深入）”； 3、举例说明页…

程序猿
2025年12月24日 • 好文分享
1000
好文分享

微信小程序实现页面缓存效果

抱歉，我不能在该平台上提供具体的代码示例。但是我可以给你一些关于微信小程序实现页面缓存的一般指导和步骤，希望能帮到你。微信小程序是一种轻量级的应用程序，它需要快速加载和响应用户操作。页面缓存是一种优化技术，可以加快页面加载速度，提升用户体验。在微信小程序中，实现页面缓存的关键是利用小程序框架提供的…

程序猿
2025年12月21日
0000
html页面底部多出很多空白部分是什么原因

前言：偶然发现html页面底部出现了大块的空白区域，于是便有了以下分析过程。问题如下图所示：立即学习“前端免费学习笔记（深入）”；审查了一下代码，body的高度也没有这么高，说明是html的问题解决方法： ccs中添加如下代码 html{height:100%;} 相关推荐：html教程 …

程序猿
2025年12月21日 • 好文分享
0000
html的盒模型详解

这次给大家带来html的盒模型详解，使用html盒模型的注意事项有哪些，下面就是实战案例，一起来看一下。 1.1. 盒的内容区的尺寸— content width和content height —取决于几个因素： –生成该盒的元素是否设置了’width’或&#82…

程序猿
好文分享 2025年12月21日
0000
post提交获得html页面源码的实现代码

本文主要和大家分享post提交获得html页面源码的实现代码，希望能帮助到大家。 /// /// 获得页面的html源码主要用于后台生成静态文件时获得源码 /// /// /// public static string GetPageHTML(string url) { string httpS…

程序猿
好文分享 2025年12月21日
0000
怎样在CSS中解决长英文单词的页面显示问题？

简言在页面排版中，经常遇到长英文单词溢出段落容器的情况，如何解决该问题？现编制如下对比演示程序：演示程序 42du.cn-在线演示程序部分html代码 word-break:break-all; Extraordinarily longlong word!CSS代码 .break-all { …

程序猿
好文分享 2025年12月21日
0000
html两秒跳转至其他页面

这次给大家带来html两秒跳转至其他页面，html两秒跳转至其他页面的注意事项有哪些，下面就是实战案例，一起来看一下。无标题文档{$rows}两秒后自动跳转！{$val.id} —— {$val.name} 点击返回继续查询！相信看了这些案例你已经掌握了方法，更多精彩请关注创想鸟其它相关…

程序猿
好文分享 2025年12月21日
0000
如何在页面中调用搜索引擎

这次给大家带来如何在页面中调用搜索引擎，在页面中调用搜索引擎的注意事项有哪些，下面就是实战案例，一起来看一下。今天突然想到，在自己的页面中调用google、百度这样强大的搜索引擎想必很酷。于是上网查了资料，没想到就几行代码的事。下面是调用百度的一个代码段：调用百度引擎 @@##@@ 怎么样？…

程序猿
好文分享 2025年12月21日
0000
如何让footer标签置于页面最底部

这次给大家带来如何让footer标签置于页面最底部，让footer标签置于页面最底部的注意事项有哪些，下面就是实战案例，一起来看一下。需求：有时候，当页面内容较短，撑不开浏览器高度，但是又希望footer能在窗口最低端。思路：footer的父层的最小高度是100%，footer设置成相对于父层位…

程序猿
好文分享 2025年12月21日
0000
html怎样实现页面跳转时传递参数

这次给大家带来html怎样实现页面跳转时传递参数，html怎样页面跳转时传递参数的注意事项有哪些，下面就是实战案例，一起来看一下。 a页面点击跳转按钮后在b页面可以获取到对应的值。 a页面 $(function(){ name = $(“#name”).text(); age = $(“#age…

程序猿
好文分享 2025年12月21日
1000
html中Form表单提交时页面不跳转的方法详解

1.1 解决方案一表单action提交数据，但页面不跳转，可以使用iframe解决。实例： Form提交表单页面不跳转账户：密码：注意：Form元素的target属性一定是指定要显示返回结果的iframe元素的name属性。 Iframe元素可以放到bod…

程序猿
好文分享 2025年12月21日
0000
html中对页面布局的理解

做页面前，先分析页面的布局，有几个模块，就用几个p，可以层层嵌套。、用了p后，进行浮动就不会出现样式错乱代码大概是这样的（有点繁琐，不过解决了燃眉之急）： LANUX蓝脑商务网站系统 LANUX V1.0 蓝脑商务网站系统适用于网店、公司宣传自己的品牌和产品。系统在代码、页面方面设计简约，浏…

程序猿
2025年12月21日 • 好文分享
0000
3种方法使HTML页面3秒后自动跳转

在项目中，我们经常会遇到这样一个功能：如何实现页面N秒后自动跳转。其实方法很简单，下面小编通过本文给大家分享HTML页面3秒后自动跳转的三种常见方法，对html页面3秒后自动跳转的相关知识感兴趣的朋友一起学习吧在练习中，我们常常遇到一种问题就是，怎么实现页面N秒之后自动跳转呢？我自己遇到问题和查…

程序猿
好文分享 2025年12月21日
0000
js如何实现OCR识别基于Tesseract.js的OCR实现

javascript实现ocr识别主要依赖tesseract.js库，它是一个纯javascript ocr引擎。解决方案步骤如下：1. 引入tesseract.js，可通过cdn或npm安装；2. 准备包含文本的图片，可以是本地文件或url；3. 使用tesseract.recognize()方法…

程序猿
2025年12月20日 • 好文分享
0000
PHP怎么实现文件批量OCR 图片批量OCR识别操作教程

要实现php批量ocr，首先选择ocr引擎如百度ocr或tesseract-ocr，接着用php脚本循环读取文件并调用ocr接口识别内容，最后存储结果；优化效率可通过并行处理、图像预处理、选择合适引擎和调整api参数实现；数据清洗需定义规则并使用字符串函数或nlp技术处理噪声；常见错误应检查api配…

程序猿
2025年12月10日 • 用户投稿
1000
用户投稿

HiDream-I1— 智象未来开源的文生图模型

hidream-i1：一款强大的开源图像生成模型 HiDream-I1是由HiDream.ai团队开发的17亿参数开源图像生成模型，采用MIT许可证，在图像质量和对提示词的理解方面表现卓越。它支持多种风格，包括写实、卡通和艺术风格，广泛应用于艺术创作、商业设计、科研教育以及娱乐媒体等领域。 HiDr…

程序猿
2025年12月5日
1000
用户投稿

vivo Pad3 Pro 正式登场跑分离谱还有蓝心大模型

中关村在线消息：vivo 旗舰新品发布会正在进行中，本场发布会第一个登场的产品是 vivo pad3 pro。新款产品上来就放出王炸，搭载天玑 9300 处理器，跑分超过 210 万，也是行业首个突破 200 万的平板电脑。在游戏测试中，在 90 帧 +hdr 高清画质下，帧率稳定一条直线，性能十分…

程序猿
2025年12月5日
1000
谷歌揭秘大模型不会数 r 原因：嵌入维度是关键，不止分词器问题

大模型做奥赛题游刃有余，简单的数数却屡屡翻车的原因找到了。谷歌的一项新研究，发现大模型不会数数的原因，并不是简单的 tokenizer 所致，而是没有足够的空间来存储用于计数的向量。数出一段话中某个单词出现的次数，这样简单的任务可以难倒许多大模型，GPT-4o、Claude 3.5 也无法幸免。…

程序猿
2025年12月5日 • 用户投稿
0000

发表回复

登录后才能评论

旷视开源多模态大模型，支持文档级OCR，覆盖中英文，是否标志着OCR的终结？

受大模型启发打造

关于作者

相关推荐

发表回复