从扫描文档中提取文本

Question

从扫描文档中提取文本

有没有办法从扫描的文档中选择文本？（输出为 jpg）Ubuntu 提供什么样的工具来完成这样的任务？有没有我可以使用的库代替预构建的软件二进制文件来做同样的事情？我尝试使用 Imagemagick 将其转换为 .pdf，然后尝试选择文本，这显然不起作用。

Answer 1

Rin*_*ind 9

这种类型的程序的名称是OCR（光学字符识别）。该链接还提供了几个选择：

gocr - 命令行 OCR
Fuzzyocr - 检查图像附件的 spamassassin 插件
libhocr0 - 希伯来语 OCR
ocrad - 光学字符识别程序
ocrfeeder - 文档布局分析和光学字符识别系统
ocropus - 文档分析和 OCR 系统
tesseract-ocr
楔形文字 - 多语言 OCR 系统

它表明 Tesseract（非常古老的教程）是其中更好的选择。所以试试吧。

归档时间：	14 年，6 月前
查看次数：	7138 次
最近记录：	9 年，11 月前