gsc*_*ndt 5 pdf ocr microsoft-cognitive
我试图利用Computer Vision API对作为扫描文档但被视为图像PDF的PDF文件进行OCR。
我已经对其进行了测试,它告诉我PDF是“ InvalidImageFormat”,“输入数据不是有效的图像”。当我在PNG上进行测试时,它可以完美运行。
是否有针对PDF图像使用API的方法,或者可以结合使用Azure API来使用PDF> PNG>文本?
编辑
由于回答附加服务已经可用,虽然我没有亲自尝试过其中的一些服务,但它们可能适合这个目的。
https://docs.microsoft.com/en-us/azure/search/cognitive-search-concept-intro
并且在未来的某个时间点正式发布。 https://aws.amazon.com/texttract/
原答案
不幸的是,Azure 的计算机视觉 API 没有 PDF 集成。要使用 Azure 计算机视觉,您需要自己将 pdf 更改为图像(JPG、PNG、BMP、GIF)。
谷歌现在确实提供了 pdf 集成,到目前为止,我已经从我的测试中看到了一些非常好的结果。
这是通过视觉客户端的 asyncBatchAnnotateFiles 方法完成的(我一直在使用 API 的 NodeJS Variant)
它可以处理多达 2000 页的文件,结果被分成 20 个页面段并输出到 Google Cloud Storage。
https://cloud.google.com/vision/docs/pdf
Microsoft Azure最近提供的最新OCR服务称为Recognize Text,它明显优于以前的OCR引擎。识别文本现在可以与Read一起使用,Read可以读取和数字化多达200页的PDF文档。