如何从图像中提取文本?

Str*_*sky 35 software-recommendation ocr

如何从图像中提取文本?

我不是在谈论扫描文件,而是花园里的各种图像,比如当你在课堂上拍摄黑板的高清照片时,它是很好的手写体;或者当您从食谱书中拍摄页面并想要文本格式的食谱时。

任何免费和开放的软件?

我尝试了 tesseract,结果很糟糕。

Rin*_*ind 33

从图像中提取文本的行为被称为OCRUbuntu 有一个专用于OCR的 wiki 页面。从该页面:

可用的 OCR 工具

Ubuntu Universe 存储库包含以下 OCR 工具:

  1. gocr - 命令行 OCR
  2. Fuzzyocr - 检查图像附件的 spamassassin 插件
  3. libhocr0 - 希伯来语 OCR
  4. ocrad - 光学字符识别程序
  5. ocrfeeder - 文档布局分析和光学字符识别系统
  6. ocropus - 文件分析和 OCR 系统
  7. tesseract-ocr

Ubuntu multiverse 存储库还包含:

  1. 楔形文字- 多语言 OCR 系统

一些软件包已经过时,但可以在Alex_P PPA(PPA 添加代码:ppa:alex-p/notesalexp)中找到非官方的新鲜软件包。如果您从未使用过 PPA,请检查如何从 PPA 添加软件

编辑:如评论中所示,Clara OCR 也存在,但它在 Hardy 上很受欢迎,他们的网站上次更新是 2009 年。


Sud*_*ali 26

tesseract-ocr would be the great one compared to all others. For Installation, run the below command

sudo apt-get install tesseract-ocr
Run Code Online (Sandbox Code Playgroud)

用法是tesseract filename.jpg output.txt,然后它会生成output.txt文件。

您可以考虑选择合适的语言。在这种情况下,您将需要安装tesseract-ocr-LANG包,其中LANG包含三个字母的ISO 639-2 语言代码。现在,您在 18.04 存储库上拥有 123 种语言。然后使用例如:

tesseract mySpanishText.jpg output -l spa
Run Code Online (Sandbox Code Playgroud)