金融图表OCR检测与文本识别

程序猿 • 2025年11月25日 15:21:47 • 科技 • 阅读 1

债券文本文档类型丰富，汉字结构复杂识别难度较大，债券文本识别现在正在发展期。借助信息化手段，提高债券文本文档信息处理能力、处理效率、准确率，实现债券文本文档自动识别是解决问题的好方法。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

背景介绍

项目背景

日常生活中，个人或企事业单位的各种经济活动都可能会产生大量的债券文本文档，随着信息化不断发展，各行各业都在将传统的纸质文件电子化保存。传统的方式是人工手动录入税务票据进入计算机系统，面对急剧增长的债券文档，错误率高、时效性差的手动操作已和高速发展，信息化的当前社会不相协同。因此借助信息化手段，提高债券文本文档信息处理能力、处理效率、准确率，实现债券文本文档自动识别是解决问题的好方法。·

表格识别可以分为两种，一是文档转的图片，横平竖直、字迹清晰。二是直接生成的图片，比如照片、扫描件，表格可能根本就是斜的，模模糊糊，甚至还有别的页的痕迹。对于第一种，常见的工具都可以试试，如abbyy finereader、百度API等，识别效果和图片的分辨率有关系；对于第二种情况，需要基于深度学习的框架，针对专门的环境调参，达到比较好的效果。

债券文本文档类型丰富，汉字结构复杂识别难度较大，因此相对来讲，债券文本识别现在正在发展期。目前做的较好的公式为：薪火科技，在人脸识别、多票据/发票识别、表格OCR识别等一方面推出了商业化产品，同时也推出了API服务接口。

市场现状

现在市场上有很多OCR文本识别软件与在线API，例如OCRMaker，天若OCR，薪火科技在线OCR等。近现代OCR技术起步较晚，对于中文和表格的识别技能尚不成熟，在国内有很大的市场。现在的OCR接口大多都是线上API，用户需要导入需要检测的图片，后续由服务器端经过计算输出结果。本项目试图将项目打包成离线可运行版本，将项目封装成一个安装包，用户不用安装环境，下载即可运行。

创作思路

本项目用了飞桨平台的PaddleOCR框架，在预训练模型的基础上稍作修改并加以训练，最后导出精确度较高的模型。运行流程如下图。

技术方案

选用了飞桨的OCR平台，分别实现了文本框检测与文本识别功能。

（1）文本框检测

本任务选用icdar2015数据集，利用基于分割的Differenttiable Binarization module（DB模型）算法，选取基于飞桨PaddlePaddle的多种图像分类ReatNet50预训练模型，训练过程中根据精确度acc与损失值loss评测指标的断点保存定期对结果进行评估；后期使用自制的债券文本相关文本框识别数据集进行训练与测试，训练过程中采用了L2范数，学习率在0.01-0.0001之间周期性变化，结果验证本方案与最终测试集内容更加贴合，可以达到更高的识别精度。

（2）文本识别

采用大量自制债券文本相关数据集，使数据与债券相关字符大量重复训练，选用了ResNet结构的CTC模型以及CRNN网络结构。训练过程中用TextRecognitionDataGenerator合成了带有标签的数据集，为确保训练精度与实际预测数据精度相差不大，引导模型预测陌生数据来对比精确度更有实际可行度。

（3）数据集处理

A.文本检测

a.初步训练。本阶段选用了icdar 2015数据集，其中包含1000个训练图像和500个测试图像；数据集的语言是英文，包含了大量的实景样本；和icdar2013数据集不同的是，icdar 2013数据集整齐排列，而icdar2015更偏向于复杂场景文字检测，比如文本显示方向与大小都很随意，对于文本定位的训练度更高。

b.数据集选取。经过训练后，当损失值loss在0.3左右趋于稳定时，我们将icdar2015数据集替换为自制债券文本相关数据集。本数据集的图片来源于现实中上市公司公开的金融财务报表等文档图片，该数据集更加贴合题意的图表检测，用来训练定位标注效率更高。

c.数据集处理。本阶段利用开源的PPOCRLabel半自动化文本与识别框标注工具处理文档图片，实现文字识别框的坐标定位标记后导出图片与txt文档作为训练集与测试集。

B.文本识别

a.训练数据集。PPOCRLabel是一款适用于OCR领域的半自动化图形标注工具，使用python3和pyqt5编写，支持矩形框标注和四点标注模式，导出格式可直接用于PPOCR检测和识别模型的训练。训练集选用了先前文本检测用的PPOCRLabel处理裁剪过的文本数据集，大多是金融相关文本与数字，同样的字符与数字重复多次出现使得训练更加有效，更加贴合官方测试集。

b.测试数据集。测试集为确保训练精度与预测精度差别不大，使用TextRecognitionDataGenerator（下文称TRDG）开源项目合成数据集。TRDG可以根据现有字典内的文字加以处理，随机生成带有不同背景不同字体的数据集和对应的txt文档。和债券文本文档相比，更陌生的数据集对于模型的测试更有意义。如果用同一出处的测试集进行测验，会使精确度acc非常高，但测试其它数据的时候达不到预期的结果，普遍性的预测结果较差。

（4）训练调优

A.断点训练

设置好rec_chinese_common_v2.0模型开始用GPU进行训练，定时定量观察训练过程，合理设置epoch的值，设置模型保存间隔防止训练突然停止而中止进度。设置checkpoints断点保存，有利于不同训练量的模型精度做对比，实时观察模型训练效果。

Levity

AI帮你自动化日常任务

206 查看详情

B.学习率调整

在训练时尝试周期性地改变学习率。学习率对于模型训练很重要。学习率过小会发生过拟合，过大则导致学习出现误差。训练过程中尝试在0.01-0.0001之间周期性地改变学习率而没有设定为固定值。这样的操作使损失值loss比较稳定而不会强烈波动。周期性改变学习率使模型训练更加稳定，训练结果与预测结果更加贴近。

C.边训练边评估

参数设置上添加了模型评估间隔，开始训练2000 epoch后每1000 epoch评估一次，训练与评估检测同时进行。因为有设置断点保存，中止训练进行评估也是可行的。

D.L2范数

训练过程中用到了L2范数，向量各元素的平方和然后求平方根，实现了对模型空间的限制，提升模型的泛化能力，有效避免过拟合问题。

运行结果

结果分析

文本检测对照可视化结果可以检查有没有漏框错框的现象，文本OCR识别可以与文档中的原字句相对照，还有识别过程中的精度acc数据与损失值loss。 RestNet50预训练模型训练经过10000次后用图表的方式分析了日志文件，可以看出acc与loss随epoch进度的变化曲线，清晰地看出模型训练的结果。约5k处的抖动更换了训练集和调整学习率，出现斜率不稳的情况。用比值的方法可视化出训练数/精确度与训练数/损失率的结果，可看出精度按、随着训练的增加上升，损失率逐步减少。较浅色的线为实时数据线的平滑化

可视化输出

在PPOCRLabel的基础上改进，打包并导出了图表扫描可运行程序ChartOCR.exe，

经过实践可运行，准确度高，可以点击框内文字直接复制或输出为txt格式的文档。

打包成exe格式的文件

运行界面

输出结果

分析

从后面括号的准确度看，训练完成度较高(代码见下方)

现实运用

应用前景

各种应用领域较广，有金融处理部门的企事业单位都可以使用到。本项目面向需要处理大量图表数据的金融类企业或部门业务，相比于数字图像处理技术不成熟阶段的手动誊写抄录计算，自动化处理使图表内容的数字化存储更加便利也更加精准。

市场价值

同类或相似产品大多数是在线API传输，一些私密性较高的数据上传有泄露信息的风险，封装后的.exe格式文件可以装在本机上直接运行，没有数据泄露的风险。网页端产品大多按次数收费，工作量越大消耗资金越多。封装后的产品可以一次下载多次使用，大批量操作性价比高。

总结

小结

OCR文本检测与识别实现了对图表的扫描与输出，可以分步得到文字所在文本框的定位坐标与文本框内容。本项目主要在百度开源的PaddlePaddle框架上加以改进，分det检测部分与rec识别部分。测试用例多数选用债券相关图表文档，取自上市公司公开报表图像文件。经验证，各项功能正常，在债券图表上测试识别准确率达到90%以上。

展望

基于深度学习的字符识别在准确率，识别速度方面有了提高，但比较消耗内存且对设备要求较高，如何降低内存消耗方面还有一定的探索前景。提高算法的进一步运算效率是下一步准备进行研究的方向。现在使用文本检测与识别需要安装依赖环境，可运行程序使用顺利后考虑对项目进行封装，不用下载环境就可以直接使用，无深度学习基础的用户也能零门槛上手。In [ ]

'''保存输出结果并可视化的测试代码'''from paddleocr import PaddleOCR, draw_ocrimport osos.environ["KMP_DUPLICATE_LIB_OK"]  =  "TRUE"ocr = PaddleOCR(use_angle_cls=True, use_gpu=True)img_path = '/图片路径'result = ocr.ocr(img_path, cls=True)for line in result:    print(line)from PIL import Imageimage = Image.open(img_path).convert('RGB')boxes = [line[0] for line in result]txts = [line[1][0] for line in result]scores = [line[1][1] for line in result]im_show = draw_ocr(image, boxes, txts, scores)im_show = Image.fromarray(im_show)im_show.save('result.jpg')def save_txt(list1, list2, save_path):    if os.path.isfile(save_path):        os.remove(save_path)    with open(save_path,'a') as f:        for i in range(len(list1)):            x='{},n'.format(list1[i])            x=x.replace('[', '').replace(']', '')            f.write(x)        f.close()save_txt(boxes, txts, '/路径/保存的txt文件名.txt')

以上就是金融图表OCR检测与文本识别的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/740721.html

python yy 工具排列百度飞桨paddlepaddle

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

科大讯飞-学术论文分类挑战赛：ERNIE 准确率0.79

上一篇 2025年11月25日 15:21:36

基于Paddle2.0的样式校正卷积网络SRM

下一篇 2025年11月25日 15:21:58

好文分享

如何利用BFC和inline-block解决兄弟元素间margin塌陷问题？

BFC清除兄弟元素间margin塌陷原理 margin塌陷问题当相邻的块级元素垂直排列，它们的margin可能会塌陷并重叠，称为margin塌陷。 BFC清除margin塌陷清除margin塌陷的一种常见方法是将下方元素包裹在一个新的块级格式化上下文（BFC）中，因为BFC之间不会相互影响。 d…

程序猿
2025年12月24日
5000
好文分享

如何优化CSS Grid布局中子元素排列和宽度问题？

css grid布局中的优化问题在使用css grid布局时可能会遇到以下问题：问题1：无法控制box1中li的布局 box1设置了grid-template-columns: repeat(auto-fill, 20%)，这意味着容器将自动填充尽可能多的20%宽度的列。当li数量大于5时，它们…

程序猿
2025年12月24日
8000
好文分享

如何在地图上轻松创建气泡信息框？

地图上气泡信息框的巧妙生成地图上气泡信息框是一种常用的交互功能，它简便易用，能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。利用地图库的原生功能大多数地图库，如高德地图，都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现：高德地图 JS API 参考文…

程序猿
2025年12月24日
4000
为什么设置 `overflow: hidden` 会导致 `inline-block` 元素错位？

overflow 导致 inline-block 元素错位解析当多个 inline-block 元素并列排列时，可能会出现错位显示的问题。这通常是由于其中一个元素设置了 overflow 属性引起的。问题现象在不设置 overflow 属性时，元素按预期显示在同一水平线上：不设置 overf…

程序猿
2025年12月24日 • 好文分享
4000
好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
2000
好文分享

面板翻页显示16张图片和信息，如何实现模块靠左显示并按行排列？

如何在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示？问题：在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果。已知信息：图片和信息使用json数据定义。使用paginationbyjs函数进行分页。使…

程序猿
2025年12月24日
0000
好文分享

如何在面板上翻页显示16个图片和信息，并实现模块靠左显示、内容按行排列？

如何设置div内的模块靠左显示，模块内容按行显示？问题：在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果。答案：要将div内的模块靠左显示，并按行排列模块内容，可以使用以下方式：给div容器添加flexbox属性： #list {…

程序猿
2025年12月24日
0000
好文分享

如何实现 div 内模块靠左显示并按行排列，且翻页显示图片和信息？

如何设置div内的模块靠左显示，模块内容按行显示？在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果中间部分里面的图片，文字显示在图片下方第二页图片靠左显示以上就是如何实现 div 内模块靠左显示并按行排列，且翻页显示图片和信息？的…

程序猿
2025年12月24日
0000
好文分享

inline-block元素错位了，是为什么？

inline-block元素错位背后的原因 inline-block元素是一种特殊类型的块级元素，它可以与其他元素行内排列。但是，在某些情况下，inline-block元素可能会出现错位显示的问题。错位的原因当inline-block元素设置了overflow:hidden属性时，它会影响元素的…

程序猿
2025年12月24日
0000
好文分享

为什么我的 Safari 自定义样式表在百度页面上失效了？

为什么在 Safari 中自定义样式表未能正常工作？在 Safari 的偏好设置中设置自定义样式表后，您对其进行测试却发现效果不同。在您自己的网页中，样式有效，而在百度页面中却失效。造成这种情况的原因是，第一个访问的项目使用了文件协议，可以访问本地目录中的图片文件。而第二个访问的百度使用了 ht…

程序猿
2025年12月24日
0000
好文分享

如何让 div 内的模块靠左显示，模块内容按行排列，并在面板上实现翻页展示？

如何设置div内的模块靠左显示，模块内容按行显示？在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果 css 代码： #List { display: flex; flex-wrap: wrap;}#List > div { text…

程序猿
2025年12月24日
0000
好文分享

如何使用 CSS Grid 布局实现固定头部和动态渲染的子元素布局？

如何实现固定布局和遍历 div？如图所示，第一个 div 固定在页面顶部，后四个 div 通过 for 循环动态渲染在下方。询问如何实现此布局，以及是否有更好的解决方案。解决方案： grid 布局立即学习“前端免费学习笔记（深入）”； grid 布局非常适合解决此问题： html 代码：固定…

程序猿
2025年12月24日
0000
好文分享

Flex 布局中，padding-right 为何无效？

在 flex 布局中，padding-right 为何无效？在使用 flex 布局时，当父元素设置了 padding-right，而内部元素纵向排列且高度固定，并允许横向滑动时，padding-right 可能不起作用。解决此问题的一个方法是修改父元素的 width 属性。将 width: 10…

程序猿
2025年12月24日
2000
好文分享

为什么自定义样式表在 Safari 中访问百度时无效？

自定义样式表在 Safari 中无效的问题你在 Safari 偏好设置中自定义的样式表无法在某些网站（例如百度）上生效，这是为什么呢？原因在于，你创建的样式表应用于本地文件路径，而百度是一个远程网站，位于互联网上。在访问本地项目时，文件协议（file://）会允许你访问本地计算机上的文件。所以…

程序猿
2025年12月24日
3000
好文分享

为什么自定义样式表在 Safari 中访问百度页面时无法生效？

自定义样式表在 safari 中失效的原因用户尝试在 safari 偏好设置中添加自定义样式表，代码如下： body { background-image: url(“/users/luxury/desktop/wallhaven-o5762l.png”) !important;} 测试后发现，在…

程序猿
2025年12月24日
0000
好文分享

如何用 CSS 实现固定布局和遍历生成的 DIV，使其第一个固定不动，剩余的以 1234 顺序排列？

如何实现固定布局和遍历div 如图所示，大的div固定在第一个位置，而标有1234的div则是通过for循环生成的。能否实现这样的布局，或者有更好的解决方案？解决方案：要实现这样的布局，推荐使用grid布局，它可以完美地解决这个问题。立即学习“前端免费学习笔记（深入）”；布局如下：第一个d…

程序猿
2025年12月24日
0000
如何用CSS Grid布局实现首个div固定位置，其他div自动排列？

css布使用固定布局和遍历div 如图所示，有一个大的div固定在第一个位置，里面有若干个通过for循环生成的div，编号为1、2、3、4。解决方案使用css的grid布局可以完美解决这个问题。立即学习“前端免费学习笔记（深入）”； html结构固定不动其他1 其他2 其他3 其他4 其他…

程序猿
好文分享 2025年12月24日
0000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
2000
好文分享

如何使用 Grid 布局解决固定布局和遍历 Div 问题？

解决固定布局和遍历 div 问题在开发中，我们有时需要创建固定布局中循环生成的元素。使用传统的定位方法可能比较复杂，这里为大家推荐一个完美的解决方案：grid 布局。方案：使用 grid 布局，设置容器为一行两列布局，第一个元素占据两行一列，其他元素自动排列。为容器设置边框和间距样式。为第一个…

程序猿
2025年12月24日
0000
好文分享

为什么在Safari中，自定义样式表只对自定义网页生效，而无法应用于外部网站？

Safari中自定义样式表工作异常的根本原因在Safari浏览器偏好设置中设置了自定义样式表，但发现仅在自定义网页中生效，而无法应用于外部网站页面。初学者往往困惑不解，探究问题的根本原因后，发现涉及协议限制与本地文件引用的问题。协议差异带来的影响自己写的网页：使用file协议访问，可以应用本地…

程序猿
2025年12月24日
0000