在itextSharp中使用LocationTextExtractionStrategy进行文本坐标

Question

我的目标是从PDF中检索可能在表格结构中的数据到excel文件.

使用带有iTextSharp的LocationTextExtractionStrategy,我们可以以纯文本形式获取字符串数据,页面内容从左到右.

我怎样才能在这期间向前迈进

PdfTextExtractor.GetTextFromPage(reader,i,new LocationTextExtractionStrategy())

我可以使文本在结果字符串中保留其坐标.

例如,如果pdf中的第一行文本右对齐,则结果字符串必须包含尾随空格或空格,以保持内容右对齐.

请提出一些建议,我将如何继续实现同样的目标.

Answer 1

理解PDF 不支持表格非常重要.任何看起来像桌子的东西实际上只是放在线条背景上的特定位置的一堆文字.这非常重要,您需要在处理此问题时牢记这一点.

也就是说,你需要子类TextExtractionStrategy并将其传递给GetTextFromPage().有关该示例的简单示例,请参阅此文章.然后查看这篇文章,了解更复杂的子类化示例.后者与您的目标并不完全相关,但它确实显示了一些您可以做的更复杂的事情.