将 PDF 的偶数页和奇数页提取为两个单独的 PDF

ixt*_*lix 11 pdf imagemagick ghostscript

我有一个包含数百页双语文本的 PDF。由于我需要在每种语言上分别使用 OCR,我想抓取偶数页和奇数页并制作两个单独的 PDF,使用convertghostscript。我想先做的语言是在奇数页上。我可以使用什么convertghostscript命令来获取这些并将它们写入新文件?

Gil*_*il' 14

我会用pdftk来做。

pdftk A=all.pdf cat Aodd output odd.pdf
pdftk A=all.pdf cat Aeven output even.pdf
Run Code Online (Sandbox Code Playgroud)


小智 7

不幸的是,pdftk不再是开源的。(这是一个很长的故事。)

不过,普通的gs引擎可以做到:

  gs -sDEVICE=pdfwrite     \
     -sPageList=odd         \
     -sOutputFile=odd.pdf   \
     -dBATCH -dNOPAUSE      \
     file.pdf 
Run Code Online (Sandbox Code Playgroud)

然后用“偶数”替换“奇数”以选择偶数页。


don*_*sti 5

使用poppler-utils工具,您可以首先使用以下命令提取单个页面pdfseparate

pdfseparate infile.pdf piece-%d.pdf
Run Code Online (Sandbox Code Playgroud)

分成诸如piece-1.pdf, piece-2.pdf...原始 pdf 中的总页数piece-n.pdfn

然后,您可以使用pdfunite(以及支持使用具有范围扩展的增量值的 shell: {<START>..<END>..<INCR>})将它们连接起来:

pdfunite piece-{1..n..2}.pdf odd.pdf
pdfunite piece-{2..n..2}.pdf even.pdf
Run Code Online (Sandbox Code Playgroud)

最后,移除碎片:

rm piece-{1..n}.pdf
Run Code Online (Sandbox Code Playgroud)