小编Zol*_*üle的帖子

使用bash脚本从pdf中提取光栅和矢量图像

我需要一个 bash 脚本,它从 pdf 中提取所有光栅和矢量图像并将它们转换为 jpg 格式。

我查看了网络上的许多帖子,从中获得了大部分想法
如何从 PDF 文件中提取图像?
计算pdf中光栅图像的数量
如何从pdf中提取矢量图?

它有效,我分享它,因为我没有在网上找到这样的解决方案。

但是有 2 个小问题目前我无法解决。

  1. 如果有一个带有文本的页面,pdf2svg则将文本确定为矢量图像,并将生成带有文本的额外图像。 有什么办法可以区分文本和真实的矢量图吗?
  2. 如果一页上有多个矢量图像,pdf2svg则将生成一个包含所有矢量图像的 SVG 图像(就像页面包含文本一样)。是否可以将它们提取为分离的图像?

bash 脚本

#!/bin/bash

TMP_DIR=$1
SOURCE_PDF=$2
MAX_WIDTH=1920
MAX_HEIGHT=1080

echo "source: $SOURCE_PDF"


function burst
{
    local source=$1

    # explodes the pages to pdf files (it is necessary for the vector images export)
    `/usr/bin/pdftk $source burst`

    # removes the source pdf (we do not need it any more)
    `rm $source`

    # and the txt files which …
Run Code Online (Sandbox Code Playgroud)

pdf bash vector-graphics

5
推荐指数
0
解决办法
1047
查看次数

标签 统计

bash ×1

pdf ×1

vector-graphics ×1