小编Mou*_*a K的帖子

使用 Python PyPDF2 从扫描的 pdf（图像）中提取文本

我一直在尝试从扫描的 PDF（带有不可选择文本的图像）中提取文本。

但是，我得到的输出不是人类可读的。

我想要包含 pdf 链接中的日期、发票号的信息（https://drive.google.com/file/d/1qQsqhlSKTZs-hlswrV8PIirR36896KXZ/view）。

请帮助我以纯文本形式提取和存储相同的内容。

import PyPDF2
from PIL import Image
pdf_reader = PyPDF2.PdfFileReader(r'document.pdf', 'rb')
page = pdf_reader.getPage(85)
if '/XObject' in page['/Resources']:
    xobject = page['/Resources']['/XObject'].getObject()
    for obj in xobject:
        if xobject[obj]['/Subtype'] == '/Image':
            size = (xobject[obj]['/Width'], xobject[obj]['/Height'])
            data = xobject[obj]._data
            print("*******", data)
            print(xobject[obj]['/Filter'])

Run Code Online (Sandbox Code Playgroud)

python pypdf python-imaging-library data-extraction

Mou*_*a K

2020 05-27

1
推荐指数

1
解决办法

1万
查看次数