从Python中的PDF提取带有字体详细信息(样式和大小)的文本

Uda*_*ran 5 python pdf fonts text-extraction font-size

我正在寻找从Python的PDF中提取带有其字体详细信息(样式和大小)的文本。

我需要阅读/解析文本内容并获取字体详细信息。请提出建议。

Kes*_*wal 1

有一个 python 库可以做到这一点。请看一下 PDFMiner。

http://www.unixuser.org/~euske/python/pdfminer/index.html

pdftext.py 为您提供从 pdf 中提取的文本,它还为您提供其他信息,如字体和字体大小等。

你可以尝试一下。

注意:不支持Python 3

  • “PDFMiner.six”支持“Python 3”。 (3认同)