按内容查找重复的 PDF 文件

Jon*_*ein 9 scripting duplicate pdf imagemagick

某些期刊为每次下载生成不同的 PDF。例如,APS在 PDF 中存储时间和 IP 地址。

或者有一个带有超链接的纸质版本和一个带有文本参考的版本。

如何通过使用开源软件在 linux 系统上找到 90% 相同内容的论文重复下载?

我一直在考虑将 PDF 文件转换为临时目录中的纯文本pdf2txt。然后我可以过滤所有diff a b结果超过 x 行的文件名。但这一点都不优雅,并且会在扫描出版物时失败。期刊通常不提供旧出版物的 OCR 文本。

我也尝试compare过 ImageMagick 套件,但我无法使用此工具处理多页 PDF 文件。

diffpdf 2.1.1在两个文件的 GUI 中做得很好,但我不知道如何将它应用于许多文件,并且最新版本在任何开源许可证下都不可用。

ann*_*rey -1

有一个 Linux 应用程序,名为recoll。它可以执行该任务,但仅限于带有文本层的 pdf。

  • 对我来说,“recoll”似乎是一个桌面搜索引擎。我看不到如何使用它来查找重复项。 (2认同)