如何在Ubuntu/Linux发行版中安装Tesseract-OCR 3.03?

gre*_*ior 13 linux ocr ubuntu tesseract

我和一位朋友有兴趣为CV项目培训tesseract-OCR引擎.我们尝试使用一些包装器,如PyTesser和pyocr,但结果目前并不像我们需要的那样准确.因此,我们希望尝试培训tesseract以更好地实现我们的目的(即识别食品标签上的文本),但在安装培训工具时遇到一些麻烦.

我们尝试过的:

在谷歌代码网站上,tesseract的谷歌代码维基上"编译"页面说,培训工具仅适用于3.03版本.但是,tesseract-ocr的Google代码"下载"页面只有3.02的材料."编译"页面的底部也有一些关于在Windows和OSX上安装3.03版本的注释,但对Linux用户还没有评论.

对于Ubuntu似乎也有某种3.03源代码包,但是我们不确定如何在我们的计算机上访问它,并且"编译"页面说我们需要运行这些命令:

make training
sudo make training-install
Run Code Online (Sandbox Code Playgroud)

我们还发现了一个关于tesseract 3.03 的google小组帖子,但似乎这些帖子似乎不包括Linux用户的建议(除非我们在初次阅读时遗漏了一些内容).

这实际上是一个非常简单的命令行安装问题吗?或者,有没有一种方法可以使用3.02(我们目前已安装)?我们一直在寻找错误的信息吗?

任何建议或指向安装tesseract-ocr 3.03 for Linux发行版的说明将非常感谢!谢谢.

erl*_*man 27

Tesseract可以直接安装在Ubuntu 14.04中使用

sudo apt-get install tesseract-ocr
Run Code Online (Sandbox Code Playgroud)

我不知道你是否可以在旧版本的Ubuntu中使用它,因为repo可能会在更高版本的Ubuntu中更新.


Ven*_*ndi 5

我有一个 aws ubuntu 14.04 实例。当我尝试安装 Tesseract 时

sudo apt-get install tesseract-ocr 
Run Code Online (Sandbox Code Playgroud)

它重新调整了找不到包

但这对我有用。

sudo apt-get update
sudo apt-get install tesseract-ocr
Run Code Online (Sandbox Code Playgroud)


Dav*_*ica 3

Ubuntu 是一个基于 Debian 的 Linux 发行版。您找到的 tesseract 包很可能是 debian 包,其中包含 tesseract 和允许您运行/训练 tesseract 所需的默认语言文件。您不需要源包 - 除非您只想自己编译它 - 不需要。您不必构建 tesseract,只需安装该软件包。首先,看来您是 Ubuntu 新手,所以请准备好InstallingSoftware。它可以像打开 x-term 并发出命令一样简单apt-get install tesseract-pkgname(注意:这意味着无论包名称是什么)。

没有捷径,请花点时间了解您的机器上是否有需要安装的 .deb 软件包,或者您是否从远程存储库安装。上面的链接解释了如何处理两者。

这是一个涉及安装 tesseract Tesseract 3.0 + Ubuntu 10.04 安装指南的特定 Ubuntu 线程希望有所帮助。Tesseract是非常好的软件。