检查PDF文件是否为扫描文件

Ale*_*lex 9 java pdf ocr

以编程方式检查PDF文件是否完全扫描的最佳方法是什么?我有iText和PDFBox供我使用.我可以检查pdf文件是否包含文本,并根据结果来确定此文件是否为OCR,但此解决方案不是100%准确.我想知道是否有另一种方法可以解决这个问题.

如您所知,解决方案必须基于Java.

小智 4

您最好的选择可能是检查它是否有文本,并查看它是否包含大页面大小的图像或覆盖页面的大量平铺图像。如果您还检查元数据,这应该涵盖大多数选项。