在 JAVA 应用程序中使用 pdf2dom 将 PDF 转换为 HTML - 有什么方法可以简化输出?

Ser*_*ban 5 html java apache pdf pdfbox

我正在处理在 JAVA 应用程序中将 PDF 文件转换为 HTML 的任务。

经过多次尝试,我使用了Pdf2Dom(基于 Apache PDFBox),它在所有免费解决方案中表现最好。

问题是输出不必要地复杂

示例:带有一行简单文本的 pdf,格式尽可能简单:

The quick brown fox jumps over the lazy dog.
Run Code Online (Sandbox Code Playgroud)

将为文本中的每个单词生成一个包含一个 < div ...> 元素的 html 输出,如下所示:

<div class="p" id="p0" style="top:85.44616pt;left:62.4pt;line-height:11.1054pt;font-family:Arial;font-size:9.0pt;width:17.310478pt;">The</div>
<div class="p" id="p1" sty
.........
.........                                                                                                                       928pt;">the</div>
<div class="p" id="p7" style="top:85.44616pt;left:222.8357pt;line-height:11.1054pt;font-family:Arial;font-size:9.0pt;width:17.798523pt;">lazy</div>
<div class="p" id="p8" style="top:85.44616pt;left:243.32341pt;line-height:11.1054pt;font-family:Arial;font-size:9.0pt;width:19.451889pt;">dog.</div>
Run Code Online (Sandbox Code Playgroud)

一个显而易见的问题:是否有可能对“org.fit.pdfdom.PDFDomTree”进行微调,以进行解析和转换并至少部分摆脱不需要的格式?

谢谢你。