我曾经将PDF到XML的转换描述为试图将汉堡包转换为母牛。这是逆向工程中的一项练习。PDF在表示文本方面有很大的不同。在最坏的情况下,您所拥有的只是扫描图像(在这种情况下,您实际上是在进行OCR)。如果幸运的话,您可以收集文本字符串的集合,并在页面上显示它们的坐标,但没有其他结构指示。
如果PDF的格式易于理解,则有一些工具可以做得很好(通常会生成Microsoft Word)。Google“ PDF到Word的转换”。试试看(距离我这样做已经有一段时间了);不要尝试自己写。当然,从Word到XML相对“简单”。
归档时间: |
|
查看次数: |
4798 次 |
最近记录: |