相关疑难解决方法(0)

PDF表格提取

我有(相同)数据保存为GIF图像文件和PDF文件,我想将其解析为HTML或XML.这些数据实际上是我大学食堂的菜单.这意味着有一个新版本的文件必须每周解析!通常,这些文件包含一些页眉和页脚文本,以及一个充满其他数据的表.我已经阅读了有关stackoverflow的一些帖子,我也开始尝试将表数据解析为HTML/XML:

PDF

  • PDFBox || iText(Java)
  • Google文档导入
  • PDF2HTML || PDF2Table

GIF

  • 正方体-OCR

通过使用PDFBox解析PDF文件,我得到了最好的结果,但仍然(因为菜单每周更改),它不够可靠.我收到的HTML有时包含更多,有时更少的"段落"(<p>),因此我无法对数据进行足够的解析.

这就是为什么我想知道是否有其他方法可以做到这一点?

pdf extraction pdfbox

12
推荐指数
4
解决办法
2万
查看次数

标签 统计

extraction ×1

pdf ×1

pdfbox ×1