tesseract 3.00多线程?

psh*_*hah 9 multithreading tesseract

我读了一些其他帖子,建议他们在3.00中添加多线程支持.但我不确定它是否在3.00发布时添加.

除了多线程之外,运行多个tesseract进程是实现并发的可行选择吗?

谢谢.

小智 8

我做过的一件事就是调用GNU Parallel来运行Tess*的多个实例,就像在多核系统上运行转换为单页图像的多页文档一样.

这是一个简短的程序,很容易在大多数Linux发行版上编译(我使用的是OpenSuSE 11.4).

这是我使用的命令行:

/usr/local/bin/parallel -j 4 \
   /usr/local/bin/tesseract -psm 1 -l eng {} {.} \
   ::: /tmp/tmp/*.jpg
Run Code Online (Sandbox Code Playgroud)

-j 4告诉并行使用我在服务器上的所有四个CPU核心.

如果你运行它,并在另一个终端做一个'顶部',你将一次看到最多四个进程,直到它遍历指定目录中的所有JPG.

您的负载不应超过系统中的CPU核心数(如果您运行Linux).

这是GNU Parallel的链接:

http://www.gnu.org/software/parallel/


Ant*_*per 5

不可以.您可以在http://code.google.com/p/tesseract-ocr/source/browse/中浏览 代码.主干中的当前代码似乎都没有使用多线程.(至少查看基类,api和神经网络类)