Azure计算机视觉API-OCR转换为PDF文件上的文本

Question

我试图利用Computer Vision API对作为扫描文档但被视为图像PDF的PDF文件进行OCR。

我已经对其进行了测试，它告诉我PDF是“ InvalidImageFormat”，“输入数据不是有效的图像”。当我在PNG上进行测试时，它可以完美运行。

是否有针对PDF图像使用API的方法，或者可以结合使用Azure API来使用PDF> PNG>文本？

Answer 1

编辑

由于回答附加服务已经可用，虽然我没有亲自尝试过其中的一些服务，但它们可能适合这个目的。

并且在未来的某个时间点正式发布。 https://aws.amazon.com/texttract/

原答案

不幸的是，Azure 的计算机视觉 API 没有 PDF 集成。要使用 Azure 计算机视觉，您需要自己将 pdf 更改为图像（JPG、PNG、BMP、GIF）。

谷歌现在确实提供了 pdf 集成，到目前为止，我已经从我的测试中看到了一些非常好的结果。

这是通过视觉客户端的 asyncBatchAnnotateFiles 方法完成的（我一直在使用 API 的 NodeJS Variant）

它可以处理多达 2000 页的文件，结果被分成 20 个页面段并输出到 Google Cloud Storage。

Answer 2

Microsoft Azure最近提供的最新OCR服务称为Recognize Text，它明显优于以前的OCR引擎。识别文本现在可以与Read一起使用，Read可以读取和数字化多达200页的PDF文档。