我正在寻找像HTML :: TableExtract这样的东西,不是用于HTML输入,而是用于包含用缩进和间距格式化的"表格"的纯文本输入.
数据可能如下所示:
Here is some header text.
Column One       Column Two      Column Three
a                                           b
a                    b                      c
Some more text
Another Table     Another Column
abdbdbdb          aaaa
我在从 pdf 文件读取表格时遇到问题。这是一个非常简单的 pdf 文件,包含一些文本和一个表格。我使用的工具是 itextsharp。我知道 PDF 中没有表格概念。经过一番谷歌搜索,有人说可以使用 itextsharp + 自定义 ITextExtractionStrategy 来实现。但我不知道如何开始。有人可以给我一些提示吗?或一小段示例代码?
干杯