如何从图像中提取文本？

Question

如何从图像中提取文本？

我不是在谈论扫描文件，而是花园里的各种图像，比如当你在课堂上拍摄黑板的高清照片时，它是很好的手写体；或者当您从食谱书中拍摄页面并想要文本格式的食谱时。

任何免费和开放的软件？

我尝试了 tesseract，结果很糟糕。

Answer 1

从图像中提取文本的行为被称为OCRUbuntu 有一个专用于OCR的 wiki 页面。从该页面：

可用的 OCR 工具

Ubuntu Universe 存储库包含以下 OCR 工具：

Ubuntu multiverse 存储库还包含：

一些软件包已经过时，但可以在Alex_P PPA（PPA 添加代码：ppa:alex-p/notesalexp）中找到非官方的新鲜软件包。如果您从未使用过 PPA，请检查如何从 PPA 添加软件。

编辑：如评论中所示，Clara OCR 也存在，但它在 Hardy 上很受欢迎，他们的网站上次更新是 2009 年。

Answer 2

tesseract-ocr would be the great one compared to all others. For Installation, run the below command

sudo apt-get install tesseract-ocr

用法是tesseract filename.jpg output.txt，然后它会生成output.txt文件。

您可以考虑选择合适的语言。在这种情况下，您将需要安装tesseract-ocr-LANG包，其中LANG包含三个字母的ISO 639-2 语言代码。现在，您在 18.04 存储库上拥有 123 种语言。然后使用例如：

tesseract mySpanishText.jpg output -l spa