我想用 python 抓取印地语(印度语)pdf 文件

Abh*_*hra 5 python pdf ocr pdf-scraping pdfminer

我已经编写了从 PDF 文件中抓取所有数据的 python 代码。这里的问题是,一旦被刮掉,单词就会失去语法。如何解决这些问题?我附上代码。

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO
def convert_pdf_to_txt(path):
   rsrcmgr = PDFResourceManager()
   retstr = StringIO()
   codec = 'utf-8'
   laparams = LAParams()
   device = TextConverter(rsrcmgr, retstr, codec=codec,laparams=laparams)
   with open(path, 'rb') as fp:
         interpreter = PDFPageInterpreter(rsrcmgr, device)
         password = ""
         caching = True
         pagenos = set()

         for page in PDFPage.get_pages(fp, pagenos, password=password,caching=caching, check_extractable=True):
             interpreter.process_page(page)
         text = retstr.getvalue()
  device.close()
  retstr.close()
  return text
print convert_pdf_to_txt("S24A276P001.pdf")
Run Code Online (Sandbox Code Playgroud)

这是PDF的屏幕截图。 PDF 屏幕截图

Abh*_*hra 5

解决该问题的最佳方法是使用textractpython 模块并从其 github 存储库加载印地语测试数据并将提取的文本写入 txt 文件。这解决了我的问题。

  • 您能否用一个简单的例子来详细说明解决方案,这对我们有帮助?谢谢 (3认同)