我有一个扫描的pdf文件,我尝试从中提取文本。我尝试使用pypdfocr在其上进行ocr,但出现错误:
“在通常的地方找不到ghostscript”
搜索后,我找到了在Windows平台中将Ghostscript链接到pypdfocr的解决方案,我尝试下载GhostScript并将其放入环境变量中,但仍然存在相同的错误。
如何使用python在扫描的pdf文件中查找文本?
谢谢。
编辑:这是我的代码示例:
import os
import sys
import re
import json
import shutil
import glob
from pypdfocr import pypdfocr_gs
from pypdfocr import pypdfocr_tesseract
from PIL import Image
path = PATH_TO_MY_SCANNED_PDF
mainL = []
kk = {}
def new_init(self, kk):
self.lang = 'heb'
self.binary = "tesseract"
self.msgs = {
'TS_MISSING': """
Could not execute %s
Please make sure you have Tesseract installed correctly
""" % self.binary,
'TS_VERSION':'Tesseract version is too old',
'TS_img_MISSING':'Cannot find specified tiff …Run Code Online (Sandbox Code Playgroud)