tesseract-ocr怎么设置只匹配数字+大写字母

2025-04-29 04:15:10

推荐回答（1个）

回答1：

C:\Program Files (x86)\Tesseract-OCR\tessdata\configs文件夹目录下，复制digits并命名为yours，用notepad++编辑

tessedit_char_whitelist 0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ

如果你是使用的3.04，按教程直接使用

tesseract C:\1.jpg C:\1 yours

你会很轻松地得到想要的结果。

但是如果你使用的是4.00，你会发现白名单毫无作用。

奇怪，难道是配置环境出错了？还是字母打错了？都不是。

tesseract提供了OCR引擎模式。

0 =仅限原始Tesseract
1 =只有神经网络LSTM
2 =Tesseract + LSTM
3 =基于可用的默认值

目前LSTM是无法支持白名单的，并且似乎tesseract的团队无意去解决这个问题。

选择原始tesseract 即 --oem 0

tesseract --oem 0 C:\1.jpg C:\1 yours

这样你就能使用白名单了。但是识别正确率会比原先低。