在 JAVA 应用程序中使用 pdf2dom 将 PDF 转换为 HTML - 有什么方法可以简化输出？

我正在处理在 JAVA 应用程序中将 PDF 文件转换为 HTML 的任务。

经过多次尝试，我使用了Pdf2Dom（基于 Apache PDFBox），它在所有免费解决方案中表现最好。

问题是输出不必要地复杂

示例：带有一行简单文本的 pdf，格式尽可能简单：

The quick brown fox jumps over the lazy dog.

Run Code Online (Sandbox Code Playgroud)

将为文本中的每个单词生成一个包含一个 < div ...> 元素的 html 输出，如下所示：

<div class="p" id="p0" style="top:85.44616pt;left:62.4pt;line-height:11.1054pt;font-family:Arial;font-size:9.0pt;width:17.310478pt;">The</div>
<div class="p" id="p1" sty
.........
.........                                                                                                                       928pt;">the</div>
<div class="p" id="p7" style="top:85.44616pt;left:222.8357pt;line-height:11.1054pt;font-family:Arial;font-size:9.0pt;width:17.798523pt;">lazy</div>
<div class="p" id="p8" style="top:85.44616pt;left:243.32341pt;line-height:11.1054pt;font-family:Arial;font-size:9.0pt;width:19.451889pt;">dog.</div>

Run Code Online (Sandbox Code Playgroud)

一个显而易见的问题：是否有可能对“org.fit.pdfdom.PDFDomTree”进行微调，以进行解析和转换并至少部分摆脱不需要的格式？

谢谢你。

归档时间：	8 年，4 月前
查看次数：	790 次
最近记录：	8 年前