-2 pdf pdfbox
我正在使用apache pdfbox框架来阅读pdf文本内容.我必须从"目录"页面(如果存在于pdf中)获取内容,应该能够通过pdfbox api识别内容表页面.请提供您的建议.
Dav*_*che 5
您可以从PDF文档中提取的任何结构都不容易识别PDF文件中的内容表.您必须进行文本提取并根据其属性识别内容表.
PDF一般不包含内容结构,如目录,章节,页眉,页脚甚至段落或文本行.
归档时间:
11 年,9 月 前
查看次数:
664 次
最近记录: