(以编程方式)比较PDF的可靠方法?

Joh*_*dol 8 c# language-agnostic pdf file-comparison

可能重复:
比较大量PDF文件的工具?

我在经典场景的业务给你一堆新的新的一年的PDF表单没有修订说明任何和你应该弄清楚什么是从去年的不同.

我在这里谈论大量的表单,所以我试图找到一种方法来比较PDF以概述差异,而无需人们手动遍历每一个.

我的想法是从PDF中提取所有文本并将其转储到.txt然后在文本文件上运行差异,但这听起来很糟糕.

我的问题以编程方式说,但我对任何用于比较PDF的可靠工具感到满意,并且主要是希望从人们的经验中获得一个想法.也愿意接受任何程序化解决方案(最好是在C#中,但请发布任何想法).

Sor*_*rax 8

有很多软件产品声称要分享pdf.我从来没有需要使用过,但如果这是一个反复出现的过程,我认为贵公司投资其中一个是明智之举.只是谷歌"pdf diff"为一堆潜在的应用程序.

此外,您的情况与此问题非常相似:比较大量PDF文件的工具?我认为它的讨论可能有所帮助.


Vit*_*aev 7

我是Docotic.Pdf Library的开发人员.我们在单元测试中使用PDF比较来检查测试是否按预期生成PDF.PDF是特殊对象的集合,我们比较所有PDF对象,忽略一些属性,如预告片ID和创建者信息.这个实现工作正常.

您可以尝试PdfDocument.DocumentsAreEqual方法.这种方法只是告诉你文件是平等的,没有具体的差异.如果您需要更多功能,可以与我们联系.