Ser*_*ban 5 html java apache pdf pdfbox
我正在处理在 JAVA 应用程序中将 PDF 文件转换为 HTML 的任务。
经过多次尝试,我使用了Pdf2Dom(基于 Apache PDFBox),它在所有免费解决方案中表现最好。
问题是输出不必要地复杂
示例:带有一行简单文本的 pdf,格式尽可能简单:
The quick brown fox jumps over the lazy dog.
Run Code Online (Sandbox Code Playgroud)
将为文本中的每个单词生成一个包含一个 < div ...> 元素的 html 输出,如下所示:
<div class="p" id="p0" style="top:85.44616pt;left:62.4pt;line-height:11.1054pt;font-family:Arial;font-size:9.0pt;width:17.310478pt;">The</div>
<div class="p" id="p1" sty
.........
......... 928pt;">the</div>
<div class="p" id="p7" style="top:85.44616pt;left:222.8357pt;line-height:11.1054pt;font-family:Arial;font-size:9.0pt;width:17.798523pt;">lazy</div>
<div class="p" id="p8" style="top:85.44616pt;left:243.32341pt;line-height:11.1054pt;font-family:Arial;font-size:9.0pt;width:19.451889pt;">dog.</div>
Run Code Online (Sandbox Code Playgroud)
一个显而易见的问题:是否有可能对“org.fit.pdfdom.PDFDomTree”进行微调,以进行解析和转换并至少部分摆脱不需要的格式?
谢谢你。
| 归档时间: |
|
| 查看次数: |
790 次 |
| 最近记录: |