ral*_*aul 5 pdf parsing pdfbox pdfminer
我们有一个项目,我们希望实现,在这个项目中,我们需要处理PDF文件(不幸的是)并解析它们的内容.在过去的几天里,我们一直在研究很多不同的图书馆,我们尝试了很少的图书馆.
虽然情况确实如此,但我们仍然不知道我们是否能够完成这样的任务.基本上,PDF文档中的每个页面都包含6-7个问题,可能包含图像和5个多项选择答案.我们需要对这些问题进行细分,并进一步细分相关问题的多项选择答案.
我们发现PDFBox
(Java
)和PDFMiner
(Python
)是解析PDF的最可靠的库,但我个人认为创建一个满足我们要求的可靠系统将是非常困难的.这不是哪个库是最好的?问题,但更像是,如果这样的任务是可行的,目前在PDF解析世界中可以实现这样的高级要求?
当然,我对任何其他建议(图像处理,裁剪软件,手动裁剪等等)持开放态度,这可能有助于我们完成任务.
例如:页面上的6个: