Jam*_*ing 5 text-extraction poppler pdf-scraping xpdf pdftotext
我正在使用“ pdftotext -bbox file.pdf”将pdf文件转换为HTML.
以下是输出的示例行:
<word xMin="351.852025" yMin="42.548936" xMax="365.689478"
yMax="47.681498">foo</word>
Run Code Online (Sandbox Code Playgroud)
有没有办法获取每个单词的字体信息,例如:
我有兴趣知道 pdftotext 的 poppler 或 xpdf 版本是否可以做到这一点。
| 归档时间: |
|
| 查看次数: |
716 次 |
| 最近记录: |