相关疑难解决方法(0)

如何在Bash中解析命令行参数?

说,我有一个用这行调用的脚本:

./myscript -vfd ./foo/bar/someFile -o /fizz/someOtherFile
Run Code Online (Sandbox Code Playgroud)

或者这个:

./myscript -v -f -d -o /fizz/someOtherFile ./foo/bar/someFile 
Run Code Online (Sandbox Code Playgroud)

什么是分析这使得在每一种情况下(或两者的组合)的接受的方式$v,$f以及 $d将全部设置为true$outFile将等于/fizz/someOtherFile

bash scripting command-line arguments getopts

1764
推荐指数
24
解决办法
136万
查看次数

PDF的批量OCR程序

以前曾经问过,但我真的不知道这些答案对我有帮助.这是我的问题:我得到了一堆(10,000左右)pdf文件.有些是使用adobe的打印功能保存的文本文件(所以他们的文本是完美的,我不想冒险搞砸它们).有些是扫描图像(所以他们没有任何文字,我将不得不接受OCR).文件在同一目录中,我无法分辨哪个是哪个.最终我想将它们转换为.txt文件,然后对它们进行字符串处理.所以我希望最准确的OCR成为可能.

似乎有人建议:

  1. adobe pdf(我没有这样的许可副本......加上如果ABBYY finereader或更好的东西,如果我不使用它,为什么要付费)
  2. ocropus(我无法弄清楚如何使用这个东西),
  3. Tesseract(看起来好像它在1995年很棒,但我不确定是否有更准确的东西加上它本身不做pdf而且我必须转换为TIFF.这引起了我自己的问题,因为我没有一个acrobat的许可副本,所以我不知道如何将10,000个文件转换为tiff.另外我不希望将10,000个30页文档转换为30,000个单独的tiff图像).
  4. wowocr
  5. pdftextstream(来自2009年)
  6. ABBYY FineReader(显然它的'$$$,但如果这个东西明显更好,我会花600美元来完成这个,即有更准确的ocr).

我也是编程的n00b所以如果要花几周的时间来学习如何做,我宁愿支付$$$.感谢输入/体验.

顺便说一下,我正在运行Linux Mint 11 64位和/或Windows 7 64位.

以下是其他主题:

批量OCRing尚未进行OCR的PDF

开源OCR

使用OCR的PDF文本提取方法

https://superuser.com/questions/107678/batch-ocr-for-many-pdf-files-not-already-ocred

pdf ocr batch-processing

17
推荐指数
2
解决办法
2万
查看次数

如何使用来自各个PNG图像的可搜索文本构建PDF?

目前,我有一系列图像(PNG),并且每个图像都有一个未格式化的文本版本的内容.我想创建一个PDF,其中每个图像成为生成的PDF的完整页面,相应的文本也以某种方式附加到页面,以便搜索某些单词会将您带到包含该文本的页面,即使永远不会直接显示文本.

这是一次性工作,因此不必整洁或可扩展.我可以使用Linux系统上常用的任何语言,或常用的命令行工具.(我也有一个可以使用Acrobat的Windows系统,虽然有近千个图像,所以手册不起作用.)

pdf png image

5
推荐指数
1
解决办法
1239
查看次数

尚未进行 OCR 的批量 OCR 处理 PDF

如果我有 10,000 个 PDF,其中一些已经过 OCR,其​​中一些有 1 个页面已经过 OCR,但其余页面没有,我怎么能浏览所有的 PDF 而只有 OCR 还没有的页面完成了吗?

pdf ocr

3
推荐指数
1
解决办法
3079
查看次数

标签 统计

pdf ×3

ocr ×2

arguments ×1

bash ×1

batch-processing ×1

command-line ×1

getopts ×1

image ×1

png ×1

scripting ×1