小编Jam_ing的帖子

pdftotext 获取字体信息（字体系列、样式、大小）

我正在使用“ pdftotext -bbox file.pdf”将pdf文件转换为HTML.

以下是输出的示例行：

<word xMin="351.852025" yMin="42.548936" xMax="365.689478"
yMax="47.681498">foo</word>

Run Code Online (Sandbox Code Playgroud)

有没有办法获取每个单词的字体信息，例如：

字体系列，例如 Verdana
样式，即无、粗体、斜体
大小，例如字体大小 9

我有兴趣知道 pdftotext 的 poppler 或 xpdf 版本是否可以做到这一点。

text-extraction poppler pdf-scraping xpdf pdftotext

5
推荐指数

0
解决办法

716
查看次数

标签统计

pdf-scraping ×1

text-extraction ×1

xpdf ×1