use*_*622 5 pdf ocr image poppler python-tesseract
此链接显示了pdfs可以如何转换为图像。有没有一种方法可以将我pdf的缩放到转换成图像的位置?在我的项目中,我将pdfs 转换为pngs,然后使用Python-tesseract库提取文本。我注意到,如果我缩放pdfs,然后将零件另存为pngs,那么OCR会提供更好的结果。那么有没有办法在转换为png之前先缩放pdf?
我认为,与放大pdf相比,提高图像的质量(分辨率)是更好的解决方案。
使用pdf2image您可以很容易地做到这一点:
安装pdf2image: pip install pdf2image
然后,在python中,将pdf转换为高质量的图像:
from pdf2image import convert_from_path
pages = convert_from_path('sample.pdf', 400) //400 is the Image quality in DPI (default 200)
pages[0].save("sample.png")
Run Code Online (Sandbox Code Playgroud)
通过使用quality参数,您应该得到想要的结果