如何从PDF中提取格式化的文本内容

Question

如何(大致)保持像Google Docs一样的样式和布局,我如何从PDF中提取文本内容(而不是图像)？

Answer 1

要从PDF中提取文本并获取它的位置,您可以使用PDFMiner.PDFMiner还可以直接以HTML格式导出PDF,使文本保持在良好的位置.

我不知道你的用例,但是在执行此操作时会遇到很多问题,因为PDF实际上是面向表示的而不是面向内容的,文本流不是连续的.因此,如果您希望文本可编辑,那么这将不是一件容易的事.

Answer 2

您是否尝试过pyPDF或ReportLab PDF库？我个人没有使用它们,但你可以去看看它们.这里也很有用