Jon*_*ein 9 scripting duplicate pdf imagemagick
某些期刊为每次下载生成不同的 PDF。例如,APS在 PDF 中存储时间和 IP 地址。
或者有一个带有超链接的纸质版本和一个带有文本参考的版本。
如何通过使用开源软件在 linux 系统上找到 90% 相同内容的论文重复下载?
我一直在考虑将 PDF 文件转换为临时目录中的纯文本pdf2txt
。然后我可以过滤所有diff a b
结果超过 x 行的文件名。但这一点都不优雅,并且会在扫描出版物时失败。期刊通常不提供旧出版物的 OCR 文本。
我也尝试compare
过 ImageMagick 套件,但我无法使用此工具处理多页 PDF 文件。
diffpdf 2.1.1在两个文件的 GUI 中做得很好,但我不知道如何将它应用于许多文件,并且最新版本在任何开源许可证下都不可用。