如何使用Python进行OCR？Tesseract识别

程序猿 • 2025年12月14日 03:26:38 • 用户投稿 • 阅读 0

使用python和tesseract进行ocr的核心步骤包括：1. 安装tesseract ocr引擎；2. 安装pytesseract库和pillow；3. 编写代码调用tesseract识别图片中的文字。安装tesseract时，windows用户需将其路径添加到环境变量或在代码中指定路径；macos可通过homebrew安装；linux可用包管理器安装。接着通过pip install pytesseract pillow安装依赖库。代码示例中包含错误处理，确保tesseract未找到或图片路径错误时能提示相关信息。常见参数如lang（指定语言）、config（设置psm和oem模式）可提升识别精度，而image_to_data()可用于获取文本位置和置信度。为优化低质量图片的识别效果，建议进行图像预处理，包括灰度化、二值化、去噪、倾斜校正、调整对比度/亮度以及适当缩放，这些操作通常结合opencv和pil库实现。

在Python里想做OCR（光学字符识别），Tesseract无疑是那个经常被提及的名字。它是个非常强大的开源OCR引擎，而我们通常会通过pytesseract这个Python库来与它进行交互，从而让Python程序能够调用Tesseract的识别能力，把图片上的文字“读”出来。简单来说，就是用pytesseract做桥梁，让Python能指挥Tesseract干活。

解决方案

要使用Python和Tesseract进行OCR，核心步骤包括安装Tesseract引擎本身、安装pytesseract库，然后编写几行代码来调用它。我个人觉得，最开始上手时，最大的“坑”可能就是Tesseract引擎的安装路径问题，尤其是Windows用户。

首先，确保你的系统里已经安装了Tesseract OCR引擎。这不是Python库，而是一个独立的应用程序。你可以去Tesseract的GitHub页面或者通过包管理器来安装它。比如在Debian/Ubuntu上是sudo apt install tesseract-ocr，在macOS上可以用Homebrew：brew install tesseract。Windows用户则需要下载安装包，安装时记得勾选“Add to PATH”或者手动添加到环境变量里，这步挺关键的。

立即学习“Python免费学习笔记（深入）”；

接着，安装Python的pytesseract库：

pip install pytesseract pillow

Pillow是处理图像的库，pytesseract依赖它。

然后，就可以开始写代码了。一个最简单的例子就是识别一张图片中的文字：

import pytesseractfrom PIL import Image# 如果Tesseract没有添加到系统环境变量，你需要在这里指定它的安装路径# pytesseract.pytesseract.tesseract_cmd = r'C:Program FilesTesseract-OCRtesseract.exe' # 或者 '/usr/local/bin/tesseract' (macOS/Linux)try:    # 加载图片    img = Image.open('example.png')     # 使用Tesseract进行OCR识别    text = pytesseract.image_to_string(img)    print("识别出的文字：")    print(text)except pytesseract.TesseractNotFoundError:    print("错误：Tesseract OCR引擎未找到。请确保已安装Tesseract并将其路径添加到系统环境变量，或在代码中指定pytesseract.pytesseract.tesseract_cmd。")except FileNotFoundError:    print("错误：图片文件未找到。请检查图片路径是否正确。")except Exception as e:    print(f"发生了一个意外错误：{e}")

这里我特意加了错误处理，因为实际开发中，Tesseract找不到或者图片路径不对是常事。你得知道问题可能出在哪。

如何安装和配置Tesseract OCR引擎？

安装Tesseract OCR引擎是使用pytesseract的前提，这步有时候比写Python代码本身还让人头疼。Tesseract是个命令行工具，pytesseract只是个包装器，所以它得能找到那个命令行工具。

在Windows上，通常需要从Tesseract的GitHub发布页下载对应的安装程序（比如tesseract-ocr-w64-setup-v5.x.x.exe）。安装过程中，务必留意勾选“Add Tesseract to PATH”选项。如果忘记了，或者想手动设置，你需要把Tesseract的安装目录（比如C:Program FilesTesseract-OCR）添加到系统的环境变量Path里。或者，就像上面代码里展示的，直接在Python脚本中用pytesseract.pytesseract.tesseract_cmd = r'你的Tesseract安装路径tesseract.exe'来指定。我个人倾向于添加到环境变量，这样全局可用，不用每个脚本都写一遍。

对于macOS用户，Homebrew是首选。打开终端，输入brew install tesseract，它会自动帮你处理好依赖和路径。这真的是Mac用户的一大福利，省心不少。

Linux发行版，比如Ubuntu或Debian，直接用包管理器安装：sudo apt update && sudo apt install tesseract-ocr。CentOS/RHEL则可能是sudo yum install tesseract或sudo dnf install tesseract。安装完成后，Tesseract通常会自动添加到系统路径中。

安装完成后，你可以在命令行里输入tesseract --version来验证是否安装成功并能被系统识别。如果能显示版本信息，那就说明Tesseract已经准备就绪了。

`pytesseract`库的基本用法和常见参数有哪些？

pytesseract库本身用起来很直观，它提供了一些核心函数来满足不同的OCR需求。最常用的当然是image_to_string()，它直接返回识别出来的文本字符串。

除了最基础的识别，pytesseract还允许你传递一些参数给Tesseract，来控制识别过程，这对于提升识别精度非常重要。

lang 参数： 这是最常用的一个。Tesseract支持多种语言识别，你需要告诉它识别什么语言。比如，识别中文就用lang='chi_sim'（简体中文），识别英文是lang='eng'。如果你需要识别多种语言混合的文本，可以用lang='eng+chi_sim'。不过，前提是你安装Tesseract时，也下载了对应的语言包。

text_chinese = pytesseract.image_to_string(img, lang='chi_sim')print("中文识别：", text_chinese)

config 参数： 这个参数非常强大，你可以通过它传递任何Tesseract的命令行参数。比如，--psm（Page Segmentation Mode，页面分割模式）和--oem（OCR Engine Mode，OCR引擎模式）是两个非常关键的参数。

--psm： 告诉Tesseract图片上的文字排布是怎样的。比如，--psm 6表示假设图片是单行文本（默认是3，自动页面分割）。如果你的图片就是一行字，用psm 7或psm 10可能会更准。

0: Orientation and script detection (OSD) only.3: Fully automatic page segmentation (default).6: Assume a single uniform block of text.7: Treat the image as a single text line.10: Treat the image as a single character.选择合适的PSM能显著提高识别率。

--oem： 决定使用哪个Tesseract引擎模式。

0: Original Tesseract only.1: Neural nets LSTM only.2: Tesseract + LSTM.3: Default, based on what is available.通常，LSTM（--oem 1）在很多情况下表现更好，尤其是在识别手写体或一些复杂字体时。

# 假设图片是单行文本，并使用LSTM引擎config_str = r'--psm 7 --oem 1' text_optimized = pytesseract.image_to_string(img, lang='eng', config=config_str)print("优化后识别：", text_optimized)

image_to_data()： 如果你不仅想获取文本，还想知道每个识别出来的字符或者单词在图片中的位置（边界框）、置信度等信息，这个函数就派上用场了。它返回一个DataFrame格式的数据，非常适合后续的数据处理和可视化。

import pandas as pd # 通常需要配合pandas来处理data = pytesseract.image_to_data(img, output_type=pytesseract.Output.DATAFRAME)print("n详细识别数据：")print(data.head()) # 查看前几行

这个函数对于开发更复杂的OCR应用，比如文本定位、信息抽取，非常有价值。

面对低质量图片，如何优化OCR识别效果？

说实话，Tesseract的识别效果好不好，很大程度上取决于你给它的图片质量。如果图片模糊、有噪声、倾斜或者光照不均，再强大的OCR引擎也可能“懵圈”。所以，对图片进行预处理，是提升OCR识别率的关键一步，甚至可以说，比调整Tesseract参数更重要。

常见的图像预处理技术包括：

灰度化与二值化： 大多数情况下，OCR引擎只需要黑白信息。

灰度化： 将彩色图片转换为灰度图，消除颜色信息，简化处理。二值化： 将灰度图转换为纯黑白图，背景纯白，文字纯黑。常用的方法有大津算法（Otsu’s Binarization）。这能有效分离前景文字和背景。

import cv2 # 通常用OpenCV来处理图像import numpy as np# 假设img_path是图片路径img_cv = cv2.imread('low_quality.png')# 转换为灰度图gray = cv2.cvtColor(img_cv, cv2.COLOR_BGR2GRAY)# 大津二值化# ret, binary = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)# 也可以尝试自适应阈值，对光照不均的图片效果更好binary = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C,                                cv2.THRESH_BINARY, 11, 2)# 将OpenCV图像转换为PIL Image对象，以便pytesseract使用pil_img_binary = Image.fromarray(binary)text_processed = pytesseract.image_to_string(pil_img_binary, lang='eng')print("二值化后识别：", text_processed)

去噪： 图片中的噪点会干扰识别。中值滤波、高斯滤波等方法可以有效去除椒盐噪声或高斯噪声。

denoised = cv2.medianBlur(gray, 3) # 中值滤波，核大小为3x3# ... 然后再进行二值化和OCR

倾斜校正（Deskewing）： 如果图片是倾斜的，Tesseract识别效果会大打折扣。通过计算文本的倾斜角度并旋转图片，可以显著提升识别率。Tesseract自身有OSD（Orientation and Script Detection）功能，可以通过--psm 0来获取倾斜信息，然后手动旋转。

# 获取图片倾斜信息（需要安装tessdata_fast/osd.traineddata）osd_data = pytesseract.image_to_osd(img)# print(osd_data) # 解析osd_data获取旋转角度# 假设解析出角度为angle# rotated = img.rotate(-angle, expand=True) # 使用PIL进行旋转# ... 然后进行OCR

调整对比度和亮度： 有些图片可能太暗或太亮，导致文字难以辨认。适当调整对比度和亮度可以改善。

缩放： 对于过小或过大的图片，有时进行适当的缩放（比如放大到300 DPI）也能帮助Tesseract更好地识别。

实际应用中，你可能需要结合多种预处理方法，并根据图片特性进行参数调优。这通常是一个迭代和实验的过程，没有一劳永逸的解决方案。我个人的经验是，多尝试不同的二值化方法和去噪算法，往往能带来意想不到的提升。

以上就是如何使用Python进行OCR？Tesseract识别的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1363493.html

ai centos cos git linux macos pyt python python程序 windows 工具

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Python怎样进行时间预测？ARIMA模型实现方法

上一篇 2025年12月14日 03:26:34

如何用Python实现人脸检测？dlib库配置方法

下一篇 2025年12月14日 03:26:45

好文分享

Uniapp 中如何不拉伸不裁剪地展示图片？

灵活展示图片：如何不拉伸不裁剪在界面设计中，常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。对于不同尺寸的图片，可以采用以下处理方式：极端宽高比：撑满屏幕宽度或高度，再等比缩放居中。非极端宽高比：居中显示，若能撑满则撑满。然而，如果需要不拉伸不…

程序猿
2025年12月24日
4000
好文分享

如何让小说网站控制台显示乱码，同时网页内容正常显示？

如何在不影响用户界面的情况下实现控制台乱码？当在小说网站上下载小说时，大家可能会遇到一个问题：网站上的文本在网页内正常显示，但是在控制台中却是乱码。如何实现此类操作，从而在不影响用户界面（UI）的情况下保持控制台乱码呢？答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体，并通过在客户端…

程序猿
2025年12月24日
7000
好文分享

如何在地图上轻松创建气泡信息框？

地图上气泡信息框的巧妙生成地图上气泡信息框是一种常用的交互功能，它简便易用，能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。利用地图库的原生功能大多数地图库，如高德地图，都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现：高德地图 JS API 参考文…

程序猿
2025年12月24日
4000
好文分享

如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画？

如何实现元素scrollleft变化时的平滑动画效果？在许多网页应用中，滚动容器的水平滚动条（scrollleft）需要频繁使用。为了让滚动动作更加自然，你希望给scrollleft的变化添加动画效果。解决方案：scroll-behavior 属性要实现scrollleft变化时的平滑动画效果…

程序猿
2025年12月24日
0000
好文分享

如何为滚动元素添加平滑过渡，使滚动条滑动时更自然流畅？

给滚动元素平滑过渡如何在滚动条属性（scrollleft）发生改变时为元素添加平滑的过渡效果？解决方案：scroll-behavior 属性为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码： click the button to slide right!…

程序猿
2025年12月24日
6000
好文分享

如何选择元素个数不固定的指定类名子元素？

灵活选择元素个数不固定的指定类名子元素在网页布局中，有时需要选择特定类名的子元素，但这些元素的数量并不固定。例如，下面这段 html 代码中，activebar 和 item 元素的数量均不固定： *n *n 如果需要选择第一个 item元素，可以使用 css 选择器 :nth-child()。该…

程序猿
2025年12月24日
3000
好文分享

使用 SVG 如何实现自定义宽度、间距和半径的虚线边框？

使用 svg 实现自定义虚线边框如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片，但是这种方法存在引入外部资源、性能低下的缺点。为了避免上述问题，可以使用 svg（可缩放矢量图形）来创建纯代码实现。一种方…

程序猿
2025年12月24日
2000
好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
3000
好文分享

旋转长方形后，如何计算其相对于画布左上角的轴距？

绘制长方形并旋转，计算旋转后轴距在拥有 1920×1080 画布中，放置一个宽高为 200×20 的长方形，其坐标位于 (100, 100)。当以任意角度旋转长方形时，如何计算它相对于画布左上角的 x、y 轴距？以下代码提供了一个计算旋转后长方形轴距的解决方案： const x = 200;co…

程序猿
2025年12月24日
0000
好文分享

旋转长方形后，如何计算它与画布左上角的xy轴距？

旋转后长方形在画布上的xy轴距计算在画布中添加一个长方形，并将其旋转任意角度，如何计算旋转后的长方形与画布左上角之间的xy轴距？问题分解：要计算旋转后长方形的xy轴距，需要考虑旋转对长方形宽高和位置的影响。首先，旋转会改变长方形的长和宽，其次，旋转会改变长方形的中心点位置。求解方法：计算旋…

程序猿
2025年12月24日
0000
好文分享

旋转长方形后如何计算其在画布上的轴距？

旋转长方形后计算轴距假设长方形的宽、高分别为 200 和 20，初始坐标为 (100, 100)，我们将它旋转一个任意角度。根据旋转矩阵公式，旋转后的新坐标 (x’, y’) 可以通过以下公式计算： x’ = x * cos(θ) – y * sin(θ)y’ = x * …

程序猿
2025年12月24日
0000
好文分享

如何让“元素跟随文本高度，而不是撑高父容器？

如何让元素跟随文本高度，而不是撑高父容器在页面布局中，经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中，父容器被较高的图片撑开，而文本的高度没有被考虑。本问答将提供纯css解决方案，让图片跟随文本高度，确保父容器的高度不会被图片影响。解决方法为了解决这个问题，需要将图片从文档流中脱离…

程序猿
2025年12月24日
1000
好文分享

如何计算旋转后长方形在画布上的轴距？

旋转后长方形与画布轴距计算在给定的画布中，有一个长方形，在随机旋转一定角度后，如何计算其在画布上的轴距，即距离左上角的距离？以下提供一种计算长方形相对于画布左上角的新轴距的方法： const x = 200; // 初始 x 坐标const y = 90; // 初始 y 坐标const w =…

程序猿
2025年12月24日
2000
好文分享

CSS元素设置em和transition后，为何载入页面无放大效果？

css元素设置em和transition后，为何载入无放大效果很多开发者在设置了em和transition后，却发现元素载入页面时无放大效果。本文将解答这一问题。原问题：在视频演示中，将元素设置如下，载入页面会有放大效果。然而，在个人尝试中，并未出现该效果。这是由于macos和windows系统…

程序猿
2025年12月24日
3000
好文分享

为什么 CSS mask 属性未请求指定图片？

解决 css mask 属性未请求图片的问题在使用 css mask 属性时，指定了图片地址，但网络面板显示未请求获取该图片，这可能是由于浏览器兼容性问题造成的。问题如下代码所示：立即学习“前端免费学习笔记（深入）”； icon [data-icon=”cloud”] { –icon-cl…

程序猿
2025年12月24日
3000
好文分享

如何利用 CSS 选中激活标签并影响相邻元素的样式？

如何利用 css 选中激活标签并影响相邻元素？为了实现激活标签影响相邻元素的样式需求，可以通过 :has 选择器来实现。以下是如何具体操作：对于激活标签相邻后的元素，可以在 css 中使用以下代码进行设置： li:has(+li.active) { border-radius: 0 0 10px…

程序猿
2025年12月24日
2000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
3000
好文分享

如何用HTML/JS实现Windows 10设置界面鼠标移动探照灯效果？

Win10设置界面中的鼠标移动探照灯效果实现指南想要在前端开发中实现类似于Windows 10设置界面的鼠标移动探照灯效果，有两种解决方案：CSS 和 HTML/JS 组合。 CSS 实现不幸的是，仅使用CSS无法完全实现该效果。立即学习“前端免费学习笔记（深入）”； HTML/JS 实现要…

程序猿
2025年12月24日
1000
好文分享

如何计算旋转后的长方形在画布上的 XY 轴距？

旋转长方形后计算其画布xy轴距在创建的画布上添加了一个长方形，并提供其宽、高和初始坐标。为了视觉化旋转效果，还提供了一些旋转特定角度后的图片。问题是如何计算任意角度旋转后，这个长方形的xy轴距。这涉及到使用三角学来计算旋转后的坐标。以下是一个 javascript 代码示例，用于计算旋转后长方…

程序猿
2025年12月24日
0000
好文分享

为什么我的 Safari 自定义样式表在百度页面上失效了？

为什么在 Safari 中自定义样式表未能正常工作？在 Safari 的偏好设置中设置自定义样式表后，您对其进行测试却发现效果不同。在您自己的网页中，样式有效，而在百度页面中却失效。造成这种情况的原因是，第一个访问的项目使用了文件协议，可以访问本地目录中的图片文件。而第二个访问的百度使用了 ht…

程序猿
2025年12月24日
1000