使用java比较两个pdf文件(方法)

Alv*_*vin 0 java pdfbox apache-tika

我需要编写一个比较两个pdf文件的java类,并使用某种突出显示指出差异(文本/位置/字体的差异).我最初的方法是使用pdfbox使用pdfbox解析文件,并使用一些数据结构存储提取的文本,这将有助于我进行比较.是否有任何java库可以提取文本,保留格式,帮助我索引和比较.我可以使用tika/google的差异匹配.tika以xhtml的形式提取文本,但我如何比较两个xhtml文件?

vin*_*ins 6

我不得不在我的项目中比较大量的pdf文件.我的要求是逐个像素地比较pdf文件.经过大量的谷歌搜索,因为我找不到任何好的东西,我最终为此目的创建了自己的pdf实用程序.

请查看此博客以获取更多详细信息和jar下载.

http://www.testautomationguru.com/introducing-pdfutil-to-compare-pdf-files-extract-resources/