您可以使用pdftotext进行上述操作,将其包装在 python 子进程中。或者,您可以使用其他一些已经隐式执行此操作的库,例如texttract。这是一个简单的示例,注意:我使用 4 个空格作为分隔符将文本转换为段落列表,您可能需要使用不同的技术。
import re
import textract
#read the content of pdf as text
text = textract.process('file_name.pdf')
#use four space as paragraph delimiter to convert the text into list of paragraphs.
print re.split('\s{4,}',text)
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
17024 次 |
| 最近记录: |