小编Mic*_*hal的帖子

将扫描的pdf转换为文本python

我有一个扫描的pdf文件，我尝试从中提取文本。我尝试使用pypdfocr在其上进行ocr，但出现错误：

“在通常的地方找不到ghostscript”

搜索后，我找到了在Windows平台中将Ghostscript链接到pypdfocr的解决方案，我尝试下载GhostScript并将其放入环境变量中，但仍然存在相同的错误。

如何使用python在扫描的pdf文件中查找文本？

谢谢。

编辑：这是我的代码示例：

import os
import sys
import re
import json
import shutil
import glob
from pypdfocr import pypdfocr_gs
from pypdfocr import pypdfocr_tesseract 
from PIL import Image

path = PATH_TO_MY_SCANNED_PDF
mainL = []
kk = {}


def new_init(self, kk):
    self.lang = 'heb'   
    self.binary = "tesseract"
    self.msgs = {
            'TS_MISSING': """ 
                Could not execute %s
                Please make sure you have Tesseract installed correctly
                """ % self.binary,
            'TS_VERSION':'Tesseract version is too old',
            'TS_img_MISSING':'Cannot find specified tiff …

Run Code Online (Sandbox Code Playgroud)

python pdf ocr ghostscript

Mic*_*hal

2017 08-03

6
推荐指数

3
解决办法

2万
查看次数