我需要一个 bash 脚本,它从 pdf 中提取所有光栅和矢量图像并将它们转换为 jpg 格式。
我查看了网络上的许多帖子,从中获得了大部分想法
如何从 PDF 文件中提取图像?
计算pdf中光栅图像的数量
如何从pdf中提取矢量图?
它有效,我分享它,因为我没有在网上找到这样的解决方案。
但是有 2 个小问题目前我无法解决。
pdf2svg则将文本确定为矢量图像,并将生成带有文本的额外图像。
有什么办法可以区分文本和真实的矢量图吗?pdf2svg则将生成一个包含所有矢量图像的 SVG 图像(就像页面包含文本一样)。是否可以将它们提取为分离的图像?bash 脚本
#!/bin/bash
TMP_DIR=$1
SOURCE_PDF=$2
MAX_WIDTH=1920
MAX_HEIGHT=1080
echo "source: $SOURCE_PDF"
function burst
{
local source=$1
# explodes the pages to pdf files (it is necessary for the vector images export)
`/usr/bin/pdftk $source burst`
# removes the source pdf (we do not need it any more)
`rm $source`
# and the txt files which …Run Code Online (Sandbox Code Playgroud)