高级PDF解析是否适用于当前的软件？

ral*_*aul 5 pdf parsing pdfbox pdfminer

我们有一个项目,我们希望实现,在这个项目中,我们需要处理PDF文件(不幸的是)并解析它们的内容.在过去的几天里,我们一直在研究很多不同的图书馆,我们尝试了很少的图书馆.

虽然情况确实如此,但我们仍然不知道我们是否能够完成这样的任务.基本上,PDF文档中的每个页面都包含6-7个问题,可能包含图像和5个多项选择答案.我们需要对这些问题进行细分,并进一步细分相关问题的多项选择答案.

我们发现PDFBox(Java)和PDFMiner(Python)是解析PDF的最可靠的库,但我个人认为创建一个满足我们要求的可靠系统将是非常困难的.这不是哪个库是最好的？问题,但更像是,如果这样的任务是可行的,目前在PDF解析世界中可以实现这样的高级要求？

当然,我对任何其他建议(图像处理,裁剪软件,手动裁剪等等)持开放态度,这可能有助于我们完成任务.

例如:页面上的6个:

问题格式

归档时间：	10 年，5 月前
查看次数：	119 次
最近记录：	10 年，5 月前

Java中的True-way解决方案:解析2个字符串中的2个数字,然后返回它们的总和 84

在Java中提取int的数字 10

iTextSharp + FileStream =损坏的PDF文件 8

R 中的 URL / URI 编码 6

如何从pdf中提取特定标题下的文本？ 6

对C语言的反思？ 5

HTML页面中的PDF:PDF.js是否可安全生产？ 5

将元组的字符串表示形式转换为实际元组 3

带括号的公式分析器 2

VBA:文件打开到PDF页面 1

在Python中查找包含它的列表的项目的索引 2887

如何用JavaScript更改元素的类？ 2650

如何动态合并两个JavaScript对象的属性？ 2338

使用jQuery从下拉列表(选择框)中获取所选文本 2240

为什么在单独的循环中元素添加比在组合循环中快得多？ 2175

在Git中撤消一个文件的工作副本修改？ 1550

为什么将0.1f改为0会使性能降低10倍？ 1491

Promises和Observables有什么区别？ 1291

在HTML中显示哪些字符可用于上/下三角(没有词干的箭头)？ 1212

jQuery从下拉列表中获取选定的选项 1067