我正在尝试使用pdfminer从pdf获取文本数据.我可以使用pdfminer命令行工具pdf2txt.py成功将此数据提取到.txt文件.我目前这样做,然后使用python脚本来清理.txt文件.我想将pdf提取过程合并到脚本中并为自己节省一步.
当我找到这个链接时,我以为我正在做某件事,但我没有成功解决任何问题.也许那里列出的功能需要再次更新,因为我使用的是更新版本的pdfminer.
我尝试的另一种方法是使用脚本在脚本中调用脚本os.system.这也是不成功的.
我使用的是Python 2.7.1版本和pdfminer版本20110227.
我搜索了我的问题,但在两个可用问题中没有得到我的答案
基本上我想遍历每个页面,因为我只想选择具有特定文本的页面。
我用过pyPdf。它几乎适用于我可以说的 90%,pdfs但有时它不会从页面中提取信息。
我使用了以下代码:
import pyPdf
extract = ""
pdf = pyPdf.PdfFileReader(open('filename.pdf', "rb"))
num_of_pages = pdf.getNumPages()
for p in range(num_of_pages):
ex = pdf.getPage(6)
ex = ex.extractText()
if re.search(r"to be held (at|on)",ex.lower()):
print 'yes'
print ex ,"\n"
extract = extract + ex + "\n"
continue
Run Code Online (Sandbox Code Playgroud)
上面的代码有效,但有时无法提取某些页面。
我也尝试使用pdfminer,但我找不到如何逐页迭代其中的 pdf。pdfminer返回pdf的整个文本。
我使用了以下代码:
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams() …Run Code Online (Sandbox Code Playgroud)