PDF表格提取

Question

PDF表格提取

我有(相同)数据保存为GIF图像文件和PDF文件,我想将其解析为HTML或XML.这些数据实际上是我大学食堂的菜单.这意味着有一个新版本的文件必须每周解析!通常,这些文件包含一些页眉和页脚文本,以及一个充满其他数据的表.我已经阅读了有关stackoverflow的一些帖子,我也开始尝试将表数据解析为HTML/XML:

PDF

PDFBox || iText(Java)
Google文档导入
PDF2HTML || PDF2Table

GIF

正方体-OCR

通过使用PDFBox解析PDF文件,我得到了最好的结果,但仍然(因为菜单每周更改),它不够可靠.我收到的HTML有时包含更多,有时更少的"段落"(<p>),因此我无法对数据进行足够的解析.

这就是为什么我想知道是否有其他方法可以做到这一点？

Answer 1

tha*_*adk 10

Tabula是JRuby Web界面上的一个很好的开端,用于从任意PDF中提取CSV/TSV表.

Answer 2

Tho*_*Tho 8

我已经实现了自己的算法(名称是traprange)来解析pdf文件中的表格数据.

以下是一些示例pdf文件和结果:

输入文件:sample-1.pdf,result:sample-1.html
输入文件:sample-4.pdf,result:sample-4.html

访问我在traprange的项目页面

或者我在traprange的文章

Answer 3

小智 5

您可以使用 Camelot 从 PDF 中提取表格并将其导出为 HTML 文件。还支持 CSV、Excel 和 JSON。您可以在以下位置查看文档：http : //camelot-py.readthedocs.io。与其他开源表提取工具和库相比，它提供了更准确的结果。这是一个比较。

您可以使用以下代码片段来继续您的任务：

>>> import camelot
>>> tables = camelot.read_pdf('file.pdf')
>>> type(tables[0].df)
<class 'pandas.core.frame.DataFrame'>
>>> tables[0].to_html('file.html')

Run Code Online (Sandbox Code Playgroud)

免责声明：我是图书馆的作者。

Answer 4

Vin*_*982 2

我已经尝试过许多 OCR 和文本转换器软件，但我相信一旦应该编写程序将 PDF 自动转换为文本，因为执行任务的人可以更好地理解图像。

我还尝试过使用Google和许多其他不同公司的在线（约900个网站）和离线（约1000个软件）产品。如果您想通过任何方法（例如 OCR 或 PDF 中的文本）提取文本，那么我发现的最准确的程序是PDFTOHTML。PDFTOHTML的准确率约为 98%，Google Online 的准确率约为 94%。这是一个非常好的软件，它还为您提供正确的文本格式，即文本的粗体、斜体等。

归档时间：	13 年，9 月前
查看次数：	19998 次
最近记录：	6 年，10 月前