我有一堆 PDF 文件,其中一些是纯文本,但有些完全或部分保存为“每页一个图像”,因为它们是从扫描仪生成的。
我需要提取PDF 中包含的所有图像,然后分别检查每个图像。
我能够使用此处找到的 python 脚本提取大部分图像,请参见问题:
在Python中从PDF中提取图像而不重新采样?
一些包含的图像是使用 JBIG2 编码的,我找不到任何 python 或其他工具来将 jbig2 转换为可以使用通用图形工具轻松打开的东西。
python pdf jbig2
jbig2 ×1
pdf ×1
python ×1