hoj*_*oju 15 python pdf text extract google-docs
如何(大致)保持像Google Docs一样的样式和布局,我如何从PDF中提取文本内容(而不是图像)?
Eti*_*nne 10
要从PDF中提取文本并获取它的位置,您可以使用PDFMiner.PDFMiner还可以直接以HTML格式导出PDF,使文本保持在良好的位置.
我不知道你的用例,但是在执行此操作时会遇到很多问题,因为PDF实际上是面向表示的而不是面向内容的,文本流不是连续的.因此,如果您希望文本可编辑,那么这将不是一件容易的事.
gho*_*g74 7
您是否尝试过pyPDF或ReportLab PDF库?我个人没有使用它们,但你可以去看看它们.这里也很有用
归档时间:
15 年,10 月 前
查看次数:
21416 次
最近记录:
8 年,6 月 前