将 PDF 文件拆分为段落

Question

将 PDF 文件拆分为段落

我有一个关于pdf文件分割的问题。基本上我有一个pdf文件的集合，我想按照段落分割这些文件。所以pdf文件的每个段落都是一个独立的文件。如果您能帮助我，最好是用 Python，我将不胜感激，但如果不可能，任何语言都可以。

Answer 1

您可以使用pdftotext进行上述操作，将其包装在 python 子进程中。或者，您可以使用其他一些已经隐式执行此操作的库，例如texttract。这是一个简单的示例，注意：我使用 4 个空格作为分隔符将文本转换为段落列表，您可能需要使用不同的技术。

import re
import textract
#read the content of pdf as text
text = textract.process('file_name.pdf')
#use four space as paragraph delimiter to convert the text into list of paragraphs.
print re.split('\s{4,}',text)

Run Code Online (Sandbox Code Playgroud)

归档时间：	9 年前
查看次数：	17024 次
最近记录：	9 年前