小编Mic*_*hal的帖子

将扫描的pdf转换为文本python

我有一个扫描的pdf文件,我尝试从中提取文本。我尝试使用pypdfocr在其上进行ocr,但出现错误:

“在通常的地方找不到ghostscript”

搜索后,我找到了在Windows平台中将Ghostscript链接到pypdfocr的解决方案,我尝试下载GhostScript并将其放入环境变量中,但仍然存在相同的错误。

如何使用python在扫描的pdf文件中查找文本?

谢谢。

编辑:这是我的代码示例:

import os
import sys
import re
import json
import shutil
import glob
from pypdfocr import pypdfocr_gs
from pypdfocr import pypdfocr_tesseract 
from PIL import Image

path = PATH_TO_MY_SCANNED_PDF
mainL = []
kk = {}


def new_init(self, kk):
    self.lang = 'heb'   
    self.binary = "tesseract"
    self.msgs = {
            'TS_MISSING': """ 
                Could not execute %s
                Please make sure you have Tesseract installed correctly
                """ % self.binary,
            'TS_VERSION':'Tesseract version is too old',
            'TS_img_MISSING':'Cannot find specified tiff …
Run Code Online (Sandbox Code Playgroud)

python pdf ocr ghostscript

6
推荐指数
3
解决办法
2万
查看次数

标签 统计

ghostscript ×1

ocr ×1

pdf ×1

python ×1