ixt*_*lix 11 pdf imagemagick ghostscript
我有一个包含数百页双语文本的 PDF。由于我需要在每种语言上分别使用 OCR,我想抓取偶数页和奇数页并制作两个单独的 PDF,使用convert
或ghostscript
。我想先做的语言是在奇数页上。我可以使用什么convert
或ghostscript
命令来获取这些并将它们写入新文件?
Gil*_*il' 14
我会用pdftk来做。
pdftk A=all.pdf cat Aodd output odd.pdf
pdftk A=all.pdf cat Aeven output even.pdf
Run Code Online (Sandbox Code Playgroud)
小智 7
不幸的是,pdftk不再是开源的。(这是一个很长的故事。)
不过,普通的gs引擎可以做到:
gs -sDEVICE=pdfwrite \
-sPageList=odd \
-sOutputFile=odd.pdf \
-dBATCH -dNOPAUSE \
file.pdf
Run Code Online (Sandbox Code Playgroud)
然后用“偶数”替换“奇数”以选择偶数页。
使用poppler-utils
工具,您可以首先使用以下命令提取单个页面pdfseparate
:
pdfseparate infile.pdf piece-%d.pdf
Run Code Online (Sandbox Code Playgroud)
分成诸如piece-1.pdf
, piece-2.pdf
...原始 pdf 中的总页数piece-n.pdf
。n
然后,您可以使用pdfunite
(以及支持使用具有范围扩展的增量值的 shell: {<START>..<END>..<INCR>}
)将它们连接起来:
pdfunite piece-{1..n..2}.pdf odd.pdf
pdfunite piece-{2..n..2}.pdf even.pdf
Run Code Online (Sandbox Code Playgroud)
最后,移除碎片:
rm piece-{1..n}.pdf
Run Code Online (Sandbox Code Playgroud)
归档时间: |
|
查看次数: |
4821 次 |
最近记录: |