Iul*_*urt 4 python pdf document
是否可以从 PDF 文档中提取页眉和/或页脚?
当我尝试了几个选项(包括 PDFMiner、Ruby gem pdf-extract、研究 PDF 格式规范)时,我开始怀疑页眉/页脚信息不可用。
(如果可能的话,我想从 Python 中执行此操作,但任何其他替代方案都是可行的。)
页面页眉和页脚不(至少不一定)位于与页面内容的其余部分分开的某些内容部分中。因此,通常没有办法从 PDF 中可靠地提取页眉和页脚。
不过,可以尝试使用启发式方法查看整个 PDF 内容并尝试猜测哪些部分是页眉和/或页脚。
如果您要分析的 PDF 相当同质,例如,全部由同一出版商制作且看起来相似,则这可能是可行的。不过,源 PDF 越多样化,您的启发法可能会变得越复杂,结果就越不准确。
| 归档时间: |
|
| 查看次数: |
5312 次 |
| 最近记录: |