如何从PDF中提取格式化的文本内容

hoj*_*oju 15 python pdf text extract google-docs

如何(大致)保持像Google Docs一样的样式和布局,我如何从PDF中提取文本内容(而不是图像)?

Eti*_*nne 10

要从PDF中提取文本并获取它的位置,您可以使用PDFMiner.PDFMiner还可以直接以HTML格式导出PDF,使文本保持在良好的位置.

我不知道你的用例,但是在执行此操作时会遇到很多问题,因为PDF实际上是面向表示的而不是面向内容的,文本流不是连续的.因此,如果您希望文本可编辑,那么这将不是一件容易的事.


gho*_*g74 7

您是否尝试过pyPDFReportLab PDF库?我个人没有使用它们,但你可以去看看它们.这里也很有用