按内容查找重复的 PDF 文件

Question

某些期刊为每次下载生成不同的 PDF。例如，APS在 PDF 中存储时间和 IP 地址。

或者有一个带有超链接的纸质版本和一个带有文本参考的版本。

如何通过使用开源软件在 linux 系统上找到 90% 相同内容的论文重复下载？

我一直在考虑将 PDF 文件转换为临时目录中的纯文本pdf2txt。然后我可以过滤所有diff a b结果超过 x 行的文件名。但这一点都不优雅，并且会在扫描出版物时失败。期刊通常不提供旧出版物的 OCR 文本。

我也尝试compare过 ImageMagick 套件，但我无法使用此工具处理多页 PDF 文件。

diffpdf 2.1.1在两个文件的 GUI 中做得很好，但我不知道如何将它应用于许多文件，并且最新版本在任何开源许可证下都不可用。

Answer 1

有一个 Linux 应用程序，名为recoll。它可以执行该任务，但仅限于带有文本层的 pdf。