近日,ibm 正式推出了名为 granite-docling-258m 的轻量级视觉语言 ai 模型。该模型专注于文档转换任务,具备出色的多语言处理能力,涵盖中文、阿拉伯语和日语,致力于提升文档解析的效率与精度。granite-docling-258m 拥有 2.58 亿参数,专为高效处理文档中的表格内容而优化。

相较于传统 OCR 工具,这款新模型在识别准确率方面表现更为出色。其输出不仅能完整保留原始文档的版面布局,还能精准识别表格、数学公式、项目列表以及代码段等多种复杂元素。这一突破性进展得益于 IBM Research 团队研发的 DocTags 技术——一种通用的文档结构标记语言,可精确标注页面中各元素的类型、位置及阅读顺序。
在文档转换过程中,Granite-Docling-258M 首先对文档内的各个组件进行语义识别,随后再执行光学字符识别。这种分步处理机制显著提升了信息提取的准确性与结构化程度。转换完成后,用户可将结果导出为 Markdown、JSON 或 HTML 等多种格式,灵活适配不同应用场景。此外,IBM 计划将 DocTags 的词汇体系集成至 Granite 系列模型的分词器及训练流程中,以进一步增强整体性能。
尽管目前 Granite-Docling-258M 尚未完全达到企业级部署的标准,但 IBM 表示将持续拓展其语言支持范围,并不断优化模型的稳定性和实用性。未来,团队还将推进 DocTags 与 IBM watsonx.ai 平台模型的深度融合,确保该技术能够在更广泛的业务场景中落地应用。
IBM Watson
IBM Watson文字转语音
20 查看详情
此次发布的新型模型为文档自动化处理提供了全新的技术路径,也为金融、法律、教育等行业提升办公智能化水平带来了有力支撑。
huggingface:https://www.php.cn/link/4fd122953585783d1e67973850a79cde
划重点:? ** 轻量级模型 **: IBM 推出 Granite-Docling-258M,专为文档转换打造。? ** 高准确度 **: 识别精度超越传统 OCR,支持表格、公式、代码等多元元素。? ** 多语言支持 **: 当前支持中文、阿拉伯语、日语,后续将增加更多语种。
以上就是IBM 推出 Granite-Docling-258M 模型,助力文件转换技术新突破的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/338130.html
微信扫一扫
支付宝扫一扫