pdftotext 获取字体信息（字体系列、样式、大小）

Jam*_*ing 5 text-extraction poppler pdf-scraping xpdf pdftotext

我正在使用“ pdftotext -bbox file.pdf”将pdf文件转换为HTML.

以下是输出的示例行：

<word xMin="351.852025" yMin="42.548936" xMax="365.689478"
yMax="47.681498">foo</word>

Run Code Online (Sandbox Code Playgroud)

有没有办法获取每个单词的字体信息，例如：

字体系列，例如 Verdana
样式，即无、粗体、斜体
大小，例如字体大小 9

我有兴趣知道 pdftotext 的 poppler 或 xpdf 版本是否可以做到这一点。

归档时间：	7 年，9 月前
查看次数：	716 次
最近记录：	7 年，9 月前

如何从一系列文本条目中提取常用/重要短语 63

无法在Python 3.6上安装pdftotext 11

如何使用Python中的poppler库从pdf中提取图像？ 9

从PDF中提取表格数据 7

'pdfseparate'：将输出文件名格式设置为带有前导零的页码 5

如何将 Amazon Textract 用于 PDF 文件 5

从Image中提取文本 3

将所有 pdf 转换为文本的批处理文件（使用 xpdf） 2

如何解决在 python 中阅读时维基百科 API 页面错误？ 2

从 pdf 中提取参考文献 - Python 1

如何禁用文本选择突出显示？ 4937

什么是__init__.py？ 2074

Java中的"实现Runnable"与"扩展线程" 2023

如何以MS Word保留格式和语法高亮显示代码片段？ 1877

重命名pandas中的列 1601

我在哪里将'assets'文件夹放在Android Studio中？ 1366

为什么不从List <T>继承？ 1299

Pythonic方式创建一个长多行字符串 1160

SQL仅选择列上具有最大值的行 1142

如何在同一分支上的两个不同提交之间区分相同的文件？ 1077