小编Mar*_*rco的帖子

从PDF中提取图像,如何处理JBIG2编码

我有一堆 PDF 文件,其中一些是纯文本,但有些完全或部分保存为“每页一个图像”,因为它们是从扫描仪生成的。

我需要提取PDF 中包含的所有图像,然后分别检查每个图像。

我能够使用此处找到的 python 脚本提取大部分图像,请参见问题:

在Python中从PDF中提取图像而不重新采样?

一些包含的图像是使用 JBIG2 编码的,我找不到任何 python 或其他工具来将 jbig2 转换为可以使用通用图形工具轻松打开的东西。

python pdf jbig2

4
推荐指数
1
解决办法
2039
查看次数

标签 统计

jbig2 ×1

pdf ×1

python ×1