Sar*_*nic 3 ocr tesseract image-processing
我目前的项目涉及将 pdf 中的文本转录为文本文件,我首先尝试将图像文件直接放入 OCR 程序(tesseract)中,但效果不佳。原始图像文件基本上是旧报纸,并且有一些背景噪音,我相信 tesseract 有问题。所以我试图在将它输入 tesseract 之前使用一些图像预处理。有没有适合这种情况的开源图像预处理引擎的建议???以及如何使用它的说明将更加感激!
kar*_*lip 5
我从来没有听说过用于此目的的“图像预处理引擎”,但您可以查看OpenCV(开源计算机视觉库)并实现您自己的“预处理引擎”。OpenCV是一个计算机视觉库,提供了许多执行图像处理的功能。
您可能希望作为预处理步骤进行测试的一件有趣的事情是对图像应用阈值以去除噪声和东西。无论如何,我已经在这个线程中谈论过这种东西。
归档时间:
12 年,10 月 前
查看次数:
10418 次
最近记录:
9 年,2 月 前