相关疑难解决方法(0)

如何将pdfminer用作库

我正在尝试使用pdfminer从pdf获取文本数据.我可以使用pdfminer命令行工具pdf2txt.py成功将此数据提取到.txt文件.我目前这样做,然后使用python脚本来清理.txt文件.我想将pdf提取过程合并到脚本中并为自己节省一步.

当我找到这个链接时,我以为我正在做某件事,但我没有成功解决任何问题.也许那里列出的功能需要再次更新,因为我使用的是更新版本的pdfminer.

我也尝试过这里显示的功能,但它也没有用.

我尝试的另一种方法是使用脚本在脚本中调用脚本os.system.这也是不成功的.

我使用的是Python 2.7.1版本和pdfminer版本20110227.

python pdf pdfminer

65
推荐指数
6
解决办法
7万
查看次数

逐页阅读pdf

我搜索了我的问题,但在两个可用问题中没有得到我的答案

  1. 使用 Python pdfMiner 提取每页文本?

  2. PDFMiner - 遍历页面并将其转换为文本

基本上我想遍历每个页面,因为我只想选择具有特定文本的页面。

我用过pyPdf。它几乎适用于我可以说的 90%,pdfs但有时它不会从页面中提取信息。

我使用了以下代码:

import pyPdf
extract = ""        
pdf = pyPdf.PdfFileReader(open('filename.pdf', "rb"))
num_of_pages = pdf.getNumPages()
for p in range(num_of_pages):
  ex = pdf.getPage(6)
  ex = ex.extractText()
  if re.search(r"to be held (at|on)",ex.lower()):
    print 'yes'
    print  ex ,"\n"
    extract = extract + ex + "\n" 
    continue
Run Code Online (Sandbox Code Playgroud)

上面的代码有效,但有时无法提取某些页面。

我也尝试使用pdfminer,但我找不到如何逐页迭代其中的 pdf。pdfminer返回pdf的整个文本。

我使用了以下代码:

def convert_pdf_to_txt(path):
  rsrcmgr = PDFResourceManager()
  retstr = StringIO()
  codec = 'utf-8'
  laparams = LAParams() …
Run Code Online (Sandbox Code Playgroud)

python pdf pypdf python-2.7 pdfminer

1
推荐指数
1
解决办法
9192
查看次数

标签 统计

pdf ×2

pdfminer ×2

python ×2

pypdf ×1

python-2.7 ×1