我有一份 pdf 文档,总共 900 页,其中有 200 多个重复页面。当存在重复项时,它会立即出现在原始项之后。
也许pdftk可以完成这项工作,但我需要某种方法来找出重复项......
我正在尝试搜索超过 100 页的 PDF 文件,然后将它们移动到 UNIX/LINUX 终端中的特定目录中。有点像这样:
find . -name '*.pdf' -pagenumber>100 -exec mv -t ~/directory
Run Code Online (Sandbox Code Playgroud)
显然-pagenumber>100这不是正确的命令。有专门的命令吗?
我想知道是否有一些方法可以提取pdf文件中每页的标题和页码?是通过某些应用程序,还是通过使用某些 pdf 库以某种编程语言进行编程?
每个页面的标题应该是页面的第一行,例如,在幻灯片/演示文件中。
输出应该是一个文本文件,格式如下:
title_of_first_page pagenum_of_first_page
title_of_second_page pagenum_of_second_page
...
Run Code Online (Sandbox Code Playgroud) 我使用了几种 unix 工具来显示 PDF,例如xpdf, evince, epdfview...
我要找的东西不是很复杂。我想在应用程序窗口内显示一个完整的页面,并减少边距(没有边距或边距很小),并且只需按一个按钮就可以转到下一页/上一页。
我不知道任何可以配置为执行此操作的 PDF 查看器。有谁知道怎么做?
我在同一个目录中有几个 odt 文件。
我想在一个 PDF 文档中包含这些 odt 文件的第一页,并根据它们的文件名按字母顺序排序。
例如,如果我有这些文件:
a.odtb.odtc.odt我想有一个生成的PDF有3页:中的第一个a.odt,那么第一个b.odt,然后中的第一个c.pdf。
你们中有人考虑过这样做的命令吗?
是否可以交换pdf文件中的奇数页和偶数页,例如第1页和第2页交换,第3页和第4页交换,...,假设pdf文件有偶数页?
可以使用某些软件(例如 pdftk 或 LaTeX)来完成吗?
我刚刚删除了一个扫描的 pdf 文件。
我正在尝试使用scalpel.
问题是手术刀会恢复许多已删除的文件并用数字命名它们(例如 0001.pdf、0002.pdf、... 9999.pdf)。
根据本教程,我可以使用grep命令并在已删除的文件中搜索一些文本。
问题是,文件被扫描了(我知道原始文件名),所以我不知道要搜索什么。
我正在使用 Ghostscript 处理一些 PDF 文件,我想在文件周围添加细黑色边框。这是可以用 Ghostscript 完成的事情,还是有其他(非有损)命令行工具可以做到这一点?
我有带有广泛(嵌套)书签的 pdf 电子书,这些书签在我所有其他 pdf 阅读器(例如 evince、foxitreader)中都可见。
但是,当我在 Zathura 中打开上述文件时,运行blist会给出:
没有可用的书签
我用 mupdf 和 poppler 插件得到了相同的结果。我在 Arch linux 上运行 Zathura,并从 Arch 官方存储库安装了它(两个版本,mupdf 和 poppler)。
无论如何可以看到这些预先存在的书签,或者Zathura是否只识别自己的书签?
我已将 A4R 纸张扫描为 2048x1443 jpg 文件。
EDIT1:它已经旋转为横向(2048x1443)。编辑结束 1
现在,如果我尝试使用此命令转换它:
$ convert -page A4R A4R_Scanned.jpg A4R_Scanned.pdf
$ echo $?
0
Run Code Online (Sandbox Code Playgroud)
EDIT2:没有关于 A4R 参数的错误消息。编辑结束2
我收到一封空白的美国信件,肖像页:
$ identify A4R_Scanned.pdf
**** Warning: File has an empty MediaBox. Using the current page size instead.
Output may be incorrect.
**** Warning: File has an empty MediaBox. Using the current page size instead.
Output may be incorrect.
A4R_Scanned.pdf PDF 595x842 595x842+0+0 16-bit Bilevel DirectClass 63.2K
Run Code Online (Sandbox Code Playgroud)
EDIT3:我尝试了另一种解决方案:
$ convert -page A4 -rotate 90 A4R_Scanned.jpg A4R_Scanned2A4.pdf
Run Code Online (Sandbox Code Playgroud)
这提供了令人满意的 A4 文档,没有明显的质量损失,但我需要将其旋转回 …
pdf ×10
command-line ×2
conversion ×1
find ×1
ghostscript ×1
imagemagick ×1
linux ×1
pdftk ×1
poppler ×1
search ×1
software-rec ×1
terminal ×1
zathura ×1