Alv*_*vin 0 java pdfbox apache-tika
我需要编写一个比较两个pdf文件的java类,并使用某种突出显示指出差异(文本/位置/字体的差异).我最初的方法是使用pdfbox使用pdfbox解析文件,并使用一些数据结构存储提取的文本,这将有助于我进行比较.是否有任何java库可以提取文本,保留格式,帮助我索引和比较.我可以使用tika/google的差异匹配.tika以xhtml的形式提取文本,但我如何比较两个xhtml文件?
我不得不在我的项目中比较大量的pdf文件.我的要求是逐个像素地比较pdf文件.经过大量的谷歌搜索,因为我找不到任何好的东西,我最终为此目的创建了自己的pdf实用程序.
请查看此博客以获取更多详细信息和jar下载.
http://www.testautomationguru.com/introducing-pdfutil-to-compare-pdf-files-extract-resources/
| 归档时间: |
|
| 查看次数: |
23014 次 |
| 最近记录: |