将PDF转换为XML-XSL-Java?

use*_*782 2 java xml xslt java-ee

如何在XSL中将PDF转换为XML并捕获其结构/样式?

Mic*_*Kay 5

我曾经将PDF到XML的转换描述为试图将汉堡包转换为母牛。这是逆向工程中的一项练习。PDF在表示文本方面有很大的不同。在最坏的情况下,您所拥有的只是扫描图像(在这种情况下,您实际上是在进行OCR)。如果幸运的话,您可以收集文本字符串的集合,并在页面上显示它们的坐标,但没有其他结构指示。

如果PDF的格式易于理解,则有一些工具可以做得很好(通常会生成Microsoft Word)。Google“ PDF到Word的转换”。试试看(距离我这样做已经有一段时间了);不要尝试自己写。当然,从Word到XML相对“简单”。