使用 pytesseract 从图像生成 PDF

say*_*sen 3 python ocr python-tesseract

我正在使用以下代码从图像生成 PDF。

PDF=pytesseract.image_to_pdf_or_hocr(test_image,lang='dan',config='',nice=0,extension='pdf')
Run Code Online (Sandbox Code Playgroud)

并且 PDF 变量的类型显示为 BYTES。

我如何发布或生成 PDF?

say*_*sen 5

我找到了答案。只是为了关闭线程,发布相同的内容。

 f = open("demofile.pdf", "w+b")
 f.write(bytearray(pdf))
 f.close()
Run Code Online (Sandbox Code Playgroud)

demofile.pdf 恰好是在工作区中发布的结果 pdf。


lou*_*der 5

来自Pytesseract-PYPI

获取可搜索的 PDF

pdf = pytesseract.image_to_pdf_or_hocr('test.png', extension='pdf')
with open('test.pdf', 'w+b') as f:
    f.write(pdf) # pdf type is bytes by default
Run Code Online (Sandbox Code Playgroud)