说,我有一个用这行调用的脚本:
./myscript -vfd ./foo/bar/someFile -o /fizz/someOtherFile
Run Code Online (Sandbox Code Playgroud)
或者这个:
./myscript -v -f -d -o /fizz/someOtherFile ./foo/bar/someFile
Run Code Online (Sandbox Code Playgroud)
什么是分析这使得在每一种情况下(或两者的组合)的接受的方式$v,$f以及 $d将全部设置为true和$outFile将等于/fizz/someOtherFile?
以前曾经问过,但我真的不知道这些答案对我有帮助.这是我的问题:我得到了一堆(10,000左右)pdf文件.有些是使用adobe的打印功能保存的文本文件(所以他们的文本是完美的,我不想冒险搞砸它们).有些是扫描图像(所以他们没有任何文字,我将不得不接受OCR).文件在同一目录中,我无法分辨哪个是哪个.最终我想将它们转换为.txt文件,然后对它们进行字符串处理.所以我希望最准确的OCR成为可能.
似乎有人建议:
我也是编程的n00b所以如果要花几周的时间来学习如何做,我宁愿支付$$$.感谢输入/体验.
顺便说一下,我正在运行Linux Mint 11 64位和/或Windows 7 64位.
以下是其他主题:
https://superuser.com/questions/107678/batch-ocr-for-many-pdf-files-not-already-ocred
目前,我有一系列图像(PNG),并且每个图像都有一个未格式化的文本版本的内容.我想创建一个PDF,其中每个图像成为生成的PDF的完整页面,相应的文本也以某种方式附加到页面,以便搜索某些单词会将您带到包含该文本的页面,即使永远不会直接显示文本.
这是一次性工作,因此不必整洁或可扩展.我可以使用Linux系统上常用的任何语言,或常用的命令行工具.(我也有一个可以使用Acrobat的Windows系统,虽然有近千个图像,所以手册不起作用.)
如果我有 10,000 个 PDF,其中一些已经过 OCR,其中一些有 1 个页面已经过 OCR,但其余页面没有,我怎么能浏览所有的 PDF 而只有 OCR 还没有的页面完成了吗?