python和pyPdf - 如何从页面中提取文本,以便在行之间有空格

Question

python和pyPdf - 如何从页面中提取文本,以便在行之间有空格

Ton*_*ark 5 python formatting text pypdf

目前,如果我使用pyPdf和extractText()创建一个pdf页面的页面对象,那么会发生的是将这些行连接在一起.例如,如果页面的第1行显示"hello"而第2行显示"world",则从extractText()返回的结果文本是"helloworld"而不是"hello world".有谁知道如何解决这个问题,或者有解决方案的建议？我真的需要文本在行之间有空格,因为我正在对这个pdf文本进行文本挖掘,并且行之间没有空格导致它....

Answer 1

ste*_*anw 2

这是 pdf 解析的常见问题。在某些情况下，您还可能需要修复尾随破折号。我为我的一个项目想出了一种解决方法，我将很快在这里描述：

我使用pdfminer从 PDF 中提取 XML，并且还在 XML 中发现了串联的单词。我提取了与 HTML 相同的 PDF，并且 HTML 可以通过以下正则表达式行进行描述：

<span style="position:absolute; writing-mode:lr-tb; left:[0-9]+px; top:([0-9]+)px; font-size:[0-9]+px;">([^<]*)</span>

Run Code Online (Sandbox Code Playgroud)

跨度是绝对定位的，并且具有顶部样式，您可以使用它来确定是否发生换行。如果发生换行并且最后一行的最后一个单词没有尾随破折号，您可以将最后一行的最后一个单词和当前行的第一个单词分开。细节可能很棘手，但您也许能够修复几乎所有文本解析错误。

此外，您可能想要运行一个字典库，例如对文本进行enchant ，查找错误，如果字典建议的修复类似于错误词但在某处有空格，则错误词可能是解析错误并且可以修复与词典的建议。

解析 PDF 很糟糕，如果您找到更好的来源，请使用它。

归档时间：	16 年前
查看次数：	4794 次
最近记录：	16 年前