我如何能够以编程方式搜索和替换大量PDF文件中的某些文本?我想删除已添加到一组文件的URL.我已经能够在Adobe Pro的批处理下使用javascript删除链接,但链接文本仍然存在.我已经看到了使用文本touchup的建议,它可以手动工作,但我不想手动修改1300个文件.
//编辑26.03.2018-谁想继续我的工作可以看一下我的源文件https://github.com/n0l0cale/ocr-sampledata
我实际上正在寻找有关PDF文件的一些详细信息。对我来说最重要的是,这些文件将可以使用很长时间,并且如果可能的话,OCR应该自动应用于新文件(Adobe Acrobat似乎不太可能...)。
为此,我一直在寻找不同的解决方案,如何对我的PDF文件进行OCR。我发现三个候选人似乎正在做他们应该做的事(或多或少)。但是,这三个变体都有其优点和缺点...但是对于所有三个变体,似乎都有不同的方法将数据存储在PDF文件中。...让我解释一下:
使用Adobe Acrobat的文件OCRed:
https://github.com/n0l0cale/ocr-sampledata/blob/master/A4%20sample_ACROBAT.pdf
生成一个文件,Acrobat可以在一个步骤中打开该文件(不预加载任何背景层),并且在执行预检脚本之后,我可以看到隐藏的文本:

使用Abby Finereader的文件OCRed:
https://github.com/n0l0cale/ocr-sampledata/blob/master/A4%20sample_ABBY.pdf
似乎不适合默认的adobe preflight-script,因为它不显示任何其他层:

但是,据我所知,这些文件似乎都有一个Background-Text-Layer,其中包含OCRed Text,这是最后显示给用户的Image的基础层。不幸的是,这似乎是单独加载的,这在使用Adobe Acrobat打开文件时令人困惑。
使用Tesseract 4(Alpha)的文件OCRed:
https://github.com/n0l0cale/ocr-sampledata/blob/master/A4%20sample_TESSERACT_oem2.pdf
在隐藏文本部分也做了一些奇怪的魔术:

但是在所有三种情况下,我都可以在文件中搜索单词,并使用“删除隐藏的信息”并选择“隐藏的文本”来查看文本:

我感到非常困惑。。。有人知道这些程序是如何真正存储其隐藏文本信息的吗?
S.
PS:对于那些想知道这个不祥的预检脚本是什么的人:https : //theblog.adobe.com/hidden-gems-in-acrobat-dc-how-to-optimize-hidden-ocr-text/