Howto:使用C#在OCR之前提高PDF质量

Question

Howto:使用C#在OCR之前提高PDF质量

Ant*_*eys 5 c# pdf ocr readable

我正在创建一个监视文件夹以查找扫描文件的服务.文件存在后,服务会将其选中,然后将其转换为可读的PDF.在此过程中,服务还会搜索条形码.在此之后,提取文本并将文本及其文本存储到我们软件的数据库中.该位置基于条形码.

现在,对于OCR,我们使用的是Atalasoft的SDK(http://www.atalasoft.com/).条形码识别器也包含在此SDK中.

但转换后的文本仍有一些错误.(我用其他OCR程序进行了一些测试,但是Atalasoft表现得很好.)我正在寻找一些软件(SDK-kit),它可以让我提高PDF的质量以达到OCR目的.

我测试了Kofax VRS Elite(http://www.kofax.com/vrs-virtualrescan/).我正在寻找类似的东西,但可以使用某种SDK-kit在服务中实现.

以前做过这个或有过类似问题的人？提前thx!

Answer 1

Jac*_*ack 2

您可以尝试完全遵循不同的路径：
看看是否可以将扫描仪配置为直接扫描到 PDF 并即时执行 OCR。Lexmark 扫描仪可以做到这一点。这将创建带有可选择和可搜索文本的 PDF。这又可以通过 PDF 阅读库提取。

或者，您也可以访问http://www.abbyy.com/看看是否能获得更好的结果。

如果这些都不是好的选择，您可能需要系统地分解您的问题：
1. 扫描图像的图像质量是否有问题？如果是这样，那么必须首先解决这个问题。您的 OCR 解决方案可能会受到分辨率、对比度和颜色的影响。
2. 是OCR软件吗？拿一份清晰易读的文档，看看 OCR 软件是否出错。如果是这样，那么您就知道必须找到更好的 OCR 软件。
3. 如果您的文档质量不错，并且您的 OCR 软件在破译清晰文档方面的成功率很高，那么您可能需要查看不起作用的例外情况，并根据具体情况进行处理。

如果文档上的污点和背景图像是问题的原因，您可能需要研究避免这种情况的方法，或者使用公开 API 的图像处理软件来清理它。

归档时间：	14 年，6 月前
查看次数：	1815 次
最近记录：	12 年，2 月前