小编Zol*_*üle的帖子

使用bash脚本从pdf中提取光栅和矢量图像

我需要一个 bash 脚本，它从 pdf 中提取所有光栅和矢量图像并将它们转换为 jpg 格式。

我查看了网络上的许多帖子，从中获得了大部分想法
如何从 PDF 文件中提取图像？
计算pdf中光栅图像的数量
 如何从pdf中提取矢量图？

它有效，我分享它，因为我没有在网上找到这样的解决方案。

但是有 2 个小问题目前我无法解决。

如果有一个带有文本的页面，pdf2svg则将文本确定为矢量图像，并将生成带有文本的额外图像。 有什么办法可以区分文本和真实的矢量图吗？
如果一页上有多个矢量图像，pdf2svg则将生成一个包含所有矢量图像的 SVG 图像（就像页面包含文本一样）。是否可以将它们提取为分离的图像？

bash 脚本

#!/bin/bash

TMP_DIR=$1
SOURCE_PDF=$2
MAX_WIDTH=1920
MAX_HEIGHT=1080

echo "source: $SOURCE_PDF"


function burst
{
    local source=$1

    # explodes the pages to pdf files (it is necessary for the vector images export)
    `/usr/bin/pdftk $source burst`

    # removes the source pdf (we do not need it any more)
    `rm $source`

    # and the txt files which …

Run Code Online (Sandbox Code Playgroud)

pdf bash vector-graphics

Zol*_*üle

2017 10-18

5
推荐指数

0
解决办法

1047
查看次数

标签统计

bash ×1

pdf ×1

vector-graphics ×1

使用bash脚本从pdf中提取光栅和矢量图像

标签 统计

小编Zol_üle的帖子

标签统计