【Paddle打比赛】AIWIN手写字体OCR识别竞赛任务一优化方案

程序猿 • 2025年11月9日 00:57:50 • 科技 • 阅读 0

本文围绕世界人工智能创新大赛AIWIN手写字体OCR识别竞赛任务一，提出优化方案。在原baseline基础上更换更优模型并微调，得分提升1.955%至0.99171，排名39/137。介绍数据处理流程，包括格式转换、划分训练验证集等，还涉及模型构建与预测，最后总结尝试及优化建议。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

世界人工智能创新大赛AIWIN手写字体OCR识别竞赛任务一优化方案

一、竞赛介绍

2021世界人工智能创新大赛（AIWIN），由世界人工智能大会组委会主办，AI SPACE承办，是全球范围内初具影响力的人工智能赛事，是2021世界人工智能大会的重要组成部分。

秋季赛将继续围绕“人工智能助力城市数字化转型”的主题，以“开展算法创新、选拔数字人才”为目标，继续秉持“高端化、专业化、国际化、市场化“的原则开展赛事。

今年提供手写字体OCR识别竞赛和心电智能诊断算法竞赛两个赛题。

我们选取【手写字体OCR识别竞赛】任务一进行实验，接下来对赛题背景及任务进行简单介绍。

1.1 赛题背景

银行日常业务中涉及到各类凭证的识别录入，例如身份证录入、支票录入、对账单录入等。以往的录入方式主要是以人工录入为主，效率较低，人力成本较高。近几年来，OCR相关技术以其自动执行、人为干预较少等特点正逐步替代传统的人工录入方式。但OCR技术在实际应用中也存在一些问题，在各类凭证字段的识别中，手写体由于其字体差异性大、字数不固定、语义关联性较低、凭证背景干扰等原因，导致OCR识别率准确率不高，需要大量人工校正，对日常的银行录入业务造成了一定的影响。

1.2 赛题任务

1.3 赛题奖励

本次方案简介：

在参考原作者的baseline：【Paddle打比赛】手写字体OCR识别竞赛baseline的基础上，更换精度更好的模型，并在这基础进行fine-tune

原作者Baseline得分：0.97216

本次方案得分：0.99171（+1.955%），最终排名：39/137。证明此方案可行

二、数据处理

2.1 数据下载

大赛使用数据要求如下”参赛人员不得对外以任何形式转载、发布赛题的训练集、验证集的全部或任意部分”，因此需要大家自行去官网下载数据集。

注：数据量8000，且均是文字区域，下载速度很快。

In [1]

#新建文件夹【dataset】!mkdir dataset

将下载的数据集上传到【dataset】文件夹内,操作流程如下图所示：

然后解压数据集：

In [ ]

!unzip -q data/2021A_T1_Task1_Sample_V1106.zip -d ./dataset/!unzip -q data/2021A_T1_Task1_数据集.zip -d ./dataset/

2.2 数据格式

下载的数据标注为json格式且图片在两个文件夹内，我们需要处理为PaddleOCR训练所需要的格式：建议将训练图片放入同一个文件夹，并用一个txt文件（rec_gt_train.txt）记录图片路径和标签，txt文件里的内容如下:

注意： txt文件中默认请将图片路径和图片标签用 t 分割，如用其他方式分割将造成训练报错。

" 图像文件名                 图像标注信息 "train_data/rec/train/word_001.jpg   简单可依赖train_data/rec/train/word_002.jpg   用科技让复杂的世界更简单...

最终训练集应有如下文件结构：

|-train_data  |- rec_gt_train.txt  |- train    |- 8bb1941c760a2c1d017626c361da6c4d.jpg    |- 8bb1941c760a2c1d01762b943a624421.jpg    |- 8bb1941c760a2c1d0176415a9ec807fe.jpg    | ...

接下来，我们一起看怎么用代码具体实现吧~

In [9]

import osimport os.path as ospimport jsonimport shutilimport yaml

定义write_file函数，处理训练集中date和amount中的数据：

In [10]

def write_file(file, json_file, save_pic):    # 读取json文件    data = yaml.load(open(json_file))        # all_str为了后面统计训练集的字典    all_str = ''        for pic_name, label_info in data.items():        # 修改成OCR需要的格式        line = os.path.join(save_pic, pic_name)+'t'+label_info+'n'        file.write(line)        all_str+=label_info        # 将图片移动到save_pic目录下        ori_path = osp.join(osp.dirname(json_file), 'images', pic_name)        save_path = osp.join(save_pic, pic_name)        shutil.copy(ori_path, save_path)    return set(all_str)

2.3划分数据集

原作者是把所有数据进行训练，这样对进行fine-tune不太友好，因此我把原数据集进行8：2进行划分为训练集、验证集，这样可以更直观看到自己改进的参数是否对模型有帮助，可手动删除rec_gt_val.txt多的部分。

In [16]

import randomimport os# 处理数据之后的保存路径# !mkdir 'train_data'# 记录图片和标签的txtsave_txt = '/home/aistudio/train_data/rec_gt_train.txt'save_val_txt='/home/aistudio/train_data/rec_gt_val.txt'# 所有图片放在一个文件夹内save_pic = '/home/aistudio/train_data/train'if not os.path.exists(save_pic):    os.mkdir(save_pic)# 读取date和amount的json文件date_json = '/home/aistudio/dataset/训练集/date/gt.json'amount_json = '/home/aistudio/dataset/训练集/amount/gt.json'file = open(save_txt, 'w')date_set = write_file(file, date_json, save_pic)amount_set = write_file(file, amount_json, save_pic)file.close()file = open(save_val_txt, 'w')date_set = write_file(file, date_json, save_pic)amount_set = write_file(file, amount_json, save_pic)file.close()

处理测试集，将所有图片放在一个文件夹内：

In [ ]

!mkdir /home/aistudio/test_data/!cp -r /home/aistudio/dataset/测试集/amount/images/* /home/aistudio/test_data/!cp -r /home/aistudio/dataset/测试集/date/images/* /home/aistudio/test_data/

2.4 字典

最后需要提供一个字典（{rec_gt_label}.txt），使模型在训练时，可以将所有出现的字符映射为字典的索引。

因此字典需要包含所有希望被正确识别的字符，{rec_gt_label}.txt需要写成如下格式，并以 utf-8 编码格式保存：

ldadrn

In [ ]

character_dict_path = 'train_data/rec_gt_label.txt'with open(character_dict_path, 'w', encoding='utf-8') as out_file:    merge_set = date_set|amount_set    num_class = len(merge_set)    print('num_class:',num_class)    for label in merge_set:        line = label+'n'        out_file.write(line)

三、模型构建

3.1 识别算法

PaddleOCR中提供了如下文本识别算法列表，以及每个算法在英文公开数据集上的模型和指标，主要用于算法简介和算法性能对比。

文本识别算法：

模型骨干网络 Avg Accuracy 模型存储命名下载链接

RosettaResnet34_vd80.24%rec_r34_vd_none_none_ctc下载链接RosettaMobileNetV378.16%rec_mv3_none_none_ctc下载链接CRNNResnet34_vd82.20%rec_r34_vd_none_bilstm_ctc下载链接CRNNMobileNetV379.37%rec_mv3_none_bilstm_ctc下载链接STAR-NetResnet34_vd83.93%rec_r34_vd_tps_bilstm_ctc下载链接STAR-NetMobileNetV381.56%rec_mv3_tps_bilstm_ctc下载链接RAREResnet34_vd84.90%rec_r34_vd_tps_bilstm_attn下载链接RAREMobileNetV383.32%rec_mv3_tps_bilstm_attn下载链接SRNResnet50_vd_fpn88.33%rec_r50fpn_vd_none_srn下载链接

3.2 安装PaddleOCR

本项目中已经帮大家安装好了最新版的PaddleOCR，且修改好配置文件、后处理代码，无需安装~

如仍需安装or安装更新，可以执行以下步骤(目前支持Clone GitHub【推荐】和Gitee两种方式)：

注：码云托管代码可能无法实时同步本github项目更新，存在3~5天延时，请优先使用推荐方式。

In [1]

# 安装依赖，每次启动项目都需要执行%cd PaddleOCR!pip install --upgrade pip!pip install -r requirements.txt

3.3 模型训练

原作者是选择CRNN模型进行训练、MobileNetv3作为backbone，具体参数可以在configs/rec/ch_ppocr_v2.0/rec_chinese_lite_train_v2.0.yml文件里修改训练配置：比如是否使用GPU、模型保存路径、数据集路径、学习率、优化等。

本次方案是选择STAR-Net模型进行训练、Resnet34_vd作为backbone，具体参数可以在configs/rec/ch_ppocr_v2.0/rec_train.yml查看。

注意：训练的过程中会有前面27个左右epochs，acc=0的情况，具体原因我也不清楚，期待有懂得同学可以解答一下。

执行命令，启动训练：

In [2]

!python tools/train.py -c configs/rec/ch_ppocr_v2.0/rec_train.yml

四、模型预测

训练好模型之后，即可启动测试，Global.pretrained_model表示预测使用的模型，Global.infer_img表示测试的图片路径或着测试图片文件夹路径：

In [3]

# 预测中文结果!python3 tools/infer_rec.py -c configs/rec/ch_ppocr_v2.0/rec_train.yml -o Global.pretrained_model=output/rec_train/best_accuracy  Global.load_static_weights=false Global.infer_img=/home/aistudio/test_data

4.1生成提交比赛所需格式

In [4]

%cd output/rec

/home/aistudio/PaddleOCR/output/rec

In [5]

!zip -r answer.zip  answer.json

  adding: answer.json (deflated 81%)

同时修改infer_rec.py将结果保存为比赛要求的格式，保存结果的路径由configs/rec/ch_ppocr_v2.0/rec_train.yml中save_res_path参数控制，结果answer.json效果如下图：

总结

做了许多的尝试，调整学习率，使用更多的数据增强方式，更改batch_size，使用预训练模型等等

结果如下：（+表示有效，-表示效果更差，0表示变动不大）

调整学习率(+)

使用更多的数据增强方式(-)

更改batch_size(0)

使用预训练模型（-）

优化建议：

可以使用精度更高的模型，并进行微调，可以尝试以上我觉得不行的方案，可能是我打开的方式不对，微调过后可以选择多种模型进行融合。

以上就是【Paddle打比赛】AIWIN手写字体OCR识别竞赛任务一优化方案的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/51854.html

ai fig git igs python udio

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

苹果CEO库克：持续研究生成式人工智能技术

上一篇 2025年11月9日 00:51:01

PhenakiAI融合AI视频解说文本图像_PhenakiAI结合AI视频解说文本图像步骤

下一篇 2025年11月9日 01:00:55

好文分享

Uniapp 中如何不拉伸不裁剪地展示图片？

灵活展示图片：如何不拉伸不裁剪在界面设计中，常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。对于不同尺寸的图片，可以采用以下处理方式：极端宽高比：撑满屏幕宽度或高度，再等比缩放居中。非极端宽高比：居中显示，若能撑满则撑满。然而，如果需要不拉伸不…

程序猿
2025年12月24日
4000
好文分享

如何让小说网站控制台显示乱码，同时网页内容正常显示？

如何在不影响用户界面的情况下实现控制台乱码？当在小说网站上下载小说时，大家可能会遇到一个问题：网站上的文本在网页内正常显示，但是在控制台中却是乱码。如何实现此类操作，从而在不影响用户界面（UI）的情况下保持控制台乱码呢？答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体，并通过在客户端…

程序猿
2025年12月24日
8000
好文分享

如何在地图上轻松创建气泡信息框？

地图上气泡信息框的巧妙生成地图上气泡信息框是一种常用的交互功能，它简便易用，能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。利用地图库的原生功能大多数地图库，如高德地图，都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现：高德地图 JS API 参考文…

程序猿
2025年12月24日
4000
好文分享

如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画？

如何实现元素scrollleft变化时的平滑动画效果？在许多网页应用中，滚动容器的水平滚动条（scrollleft）需要频繁使用。为了让滚动动作更加自然，你希望给scrollleft的变化添加动画效果。解决方案：scroll-behavior 属性要实现scrollleft变化时的平滑动画效果…

程序猿
2025年12月24日
0000
好文分享

如何为滚动元素添加平滑过渡，使滚动条滑动时更自然流畅？

给滚动元素平滑过渡如何在滚动条属性（scrollleft）发生改变时为元素添加平滑的过渡效果？解决方案：scroll-behavior 属性为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码： click the button to slide right!…

程序猿
2025年12月24日
5000
好文分享

如何选择元素个数不固定的指定类名子元素？

灵活选择元素个数不固定的指定类名子元素在网页布局中，有时需要选择特定类名的子元素，但这些元素的数量并不固定。例如，下面这段 html 代码中，activebar 和 item 元素的数量均不固定： *n *n 如果需要选择第一个 item元素，可以使用 css 选择器 :nth-child()。该…

程序猿
2025年12月24日
2000
好文分享

使用 SVG 如何实现自定义宽度、间距和半径的虚线边框？

使用 svg 实现自定义虚线边框如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片，但是这种方法存在引入外部资源、性能低下的缺点。为了避免上述问题，可以使用 svg（可缩放矢量图形）来创建纯代码实现。一种方…

程序猿
2025年12月24日
1000
好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
2000
好文分享

如何让“元素跟随文本高度，而不是撑高父容器？

如何让元素跟随文本高度，而不是撑高父容器在页面布局中，经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中，父容器被较高的图片撑开，而文本的高度没有被考虑。本问答将提供纯css解决方案，让图片跟随文本高度，确保父容器的高度不会被图片影响。解决方法为了解决这个问题，需要将图片从文档流中脱离…

程序猿
2025年12月24日
0000
好文分享

为什么 CSS mask 属性未请求指定图片？

解决 css mask 属性未请求图片的问题在使用 css mask 属性时，指定了图片地址，但网络面板显示未请求获取该图片，这可能是由于浏览器兼容性问题造成的。问题如下代码所示：立即学习“前端免费学习笔记（深入）”； icon [data-icon=”cloud”] { –icon-cl…

程序猿
2025年12月24日
2000
好文分享

如何利用 CSS 选中激活标签并影响相邻元素的样式？

如何利用 css 选中激活标签并影响相邻元素？为了实现激活标签影响相邻元素的样式需求，可以通过 :has 选择器来实现。以下是如何具体操作：对于激活标签相邻后的元素，可以在 css 中使用以下代码进行设置： li:has(+li.active) { border-radius: 0 0 10px…

程序猿
2025年12月24日
1000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
2000
好文分享

为什么我的 Safari 自定义样式表在百度页面上失效了？

为什么在 Safari 中自定义样式表未能正常工作？在 Safari 的偏好设置中设置自定义样式表后，您对其进行测试却发现效果不同。在您自己的网页中，样式有效，而在百度页面中却失效。造成这种情况的原因是，第一个访问的项目使用了文件协议，可以访问本地目录中的图片文件。而第二个访问的百度使用了 ht…

程序猿
2025年12月24日
0000
好文分享

如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果？

如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果，可以通过以下途径： CSS 解决方案 DEMO 1: Windows 10 网格悬停效果：https://codepen.io/tr4553r7/pe…

程序猿
2025年12月24日
0000
好文分享

使用CSS mask属性指定图片URL时，为什么浏览器无法加载图片？

css mask属性未能加载图片的解决方法使用css mask属性指定图片url时，如示例中所示： mask: url(“https://api.iconify.design/mdi:apple-icloud.svg”) center / contain no-repeat; 但是，在网络面板中却…

程序猿
2025年12月24日
0000
好文分享

如何用CSS Paint API为网页元素添加时尚的斑马线边框？

为元素添加时尚的斑马线边框在网页设计中，有时我们需要添加时尚的边框来提升元素的视觉效果。其中，斑马线边框是一种既醒目又别致的设计元素。实现斜向斑马线边框要实现斜向斑马线间隔圆环，我们可以使用css paint api。该api提供了强大的功能，可以让我们在元素上绘制复杂的图形。立即学习“前端…

程序猿
2025年12月24日
0000
好文分享

图片如何不撑高父容器？

如何让图片不撑高父容器？当父容器包含不同高度的子元素时，父容器的高度通常会被最高元素撑开。如果你希望父容器的高度由文本内容撑开，避免图片对其产生影响，可以通过以下 css 解决方法：绝对定位元素： .child-image { position: absolute; top: 0; left: …

程序猿
2025年12月24日
0000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
2000
CSS 帮助

我正在尝试将文本附加到棕色框的左侧。我不能。我不知道代码有什么问题。请帮助我。 css .hero { position: relative; bottom: 80px; display: flex; justify-content: left; align-items: start; color:…

程序猿
2025年12月24日 • 好文分享
2000
好文分享

HTML、CSS 和 JavaScript 中的简单侧边栏菜单

构建一个简单的侧边栏菜单是一个很好的主意，它可以为您的网站添加有价值的功能和令人惊叹的外观。侧边栏菜单对于客户找到不同项目的方式很有用，而不会让他们觉得自己有太多选择，从而创造了简单性和秩序。今天，我将分享一个简单的 HTML、CSS 和 JavaScript 源代码来创建一个简单的侧边栏菜单。…

程序猿
2025年12月24日
2000