Howto:使用C#在OCR之前提高PDF质量

Ant*_*eys 5 c# pdf ocr readable

我正在创建一个监视文件夹以查找扫描文件的服务.文件存在后,服务会将其选中,然后将其转换为可读的PDF.在此过程中,服务还会搜索条形码.在此之后,提取文本并将文本及其文本存储到我们软件的数据库中.该位置基于条形码.

现在,对于OCR,我们使用的是Atalasoft的SDK(http://www.atalasoft.com/).条形码识别器也包含在此SDK中.

但转换后的文本仍有一些错误.(我用其他OCR程序进行了一些测试,但是Atalasoft表现得很好.)我正在寻找一些软件(SDK-kit),它可以让我提高PDF的质量以达到OCR目的.

我测试了Kofax VRS Elite(http://www.kofax.com/vrs-virtualrescan/).我正在寻找类似的东西,但可以使用某种SDK-kit在服务中实现.

以前做过这个或有过类似问题的人?提前thx!

Jac*_*ack 2

您可以尝试完全遵循不同的路径:
看看是否可以将扫描仪配置为直接扫描到 PDF 并即时执行 OCR。Lexmark 扫描仪可以做到这一点。这将创建带有可选择和可搜索文本的 PDF。这又可以通过 PDF 阅读库提取。

或者,您也可以访问http://www.abbyy.com/看看是否能获得更好的结果。

如果这些都不是好的选择,您可能需要系统地分解您的问题:
1. 扫描图像的图像质量是否有问题?如果是这样,那么必须首先解决这个问题。您的 OCR 解决方案可能会受到分辨率、对比度和颜色的影响。
2. 是OCR软件吗?拿一份清晰易读的文档,看看 OCR 软件是否出错。如果是这样,那么您就知道必须找到更好的 OCR 软件。
3. 如果您的文档质量不错,并且您的 OCR 软件在破译清晰文档方面的成功率很高,那么您可能需要查看不起作用的例外情况,并根据具体情况进行处理。

如果文档上的污点和背景图像是问题的原因,您可能需要研究避免这种情况的方法,或者使用公开 API 的图像处理软件来清理它。