如何从 PDF 文件的表格中提取文本？

Question

如何从 PDF 文件的表格中提取文本？

Nat*_*man 5 pdf

我正在尝试实现我在 PDF 格式的学术论文中描述的算法。该算法包含一个包含 256 个条目的表，我想将其复制到我的实现中。但是，我似乎无法将表格复制为可以操作的文本。我只能将其复制为图像。

如何在不输入表格的情况下轻松提取表格？

Answer 1

Ivo*_*pse 4

PDF2表格

我认为这将其交给 XML。

如果我们上网冲浪，我们可以在堆中找到 PDF 文件。曾经是令人惊叹的 5 兆像素数码相机的技术细节，曾经是有关企业过去两年收入的统计数据，曾经是阿瑟·柯南道尔爵士的精彩犯罪小说都保存在 PDF 文件中。这种文件格式的广泛使用使人们关注如何重用此类文件中的数据的问题。在这个领域已经做了很多事情。例如，有多种工具可以将 PDF 文件转换为其他格式。

我的工作仅关注从 PDF 文件中提取表格信息。我搜索了从 PDF 文件中提取基本信息的工具。我发现了一个名为 pdf2html 的工具，它也以 XML 格式返回数据。为了访问此 XML 输出，我使用了 JDOM 存档。

我开发了几种用于表检测和分解的启发式方法。这些启发式方法在清晰的表（不跨列或行）上效果很好，在复杂表（跨行或列）上也相当好。

Sourceforge 链接

归档时间：	16 年，6 月前
查看次数：	14308 次
最近记录：	11 年，2 月前