适用于 Linux 的扫描到 PDF 软件？

Question

适用于 Linux 的扫描到 PDF 软件？

NPE*_*NPE 18 linux pdf scanning

我有一个工作流程，我使用富士通 ScanSnap S500文档扫描仪将纸质文档扫描成可搜索的 PDF 。我不是捆绑软件的忠实粉丝，但它使用起来非常简单：将一叠纸放在顶部，按下绿色按钮，就会出现一个可搜索的 PDF。

现在，我想在 Linux (Ubuntu 10.10) 上做类似的事情。扫描仪支持开箱即用。

我看过gscan2pdf和XSane：

XSane 看起来很强大，但并不适合作为工作流解决方案；
gscan2pdf 有点接近“按下按钮，获取 PDF”的理想，但仍然不是 100%。

您可以推荐任何其他软件（免费或其他）？

Answer 1

小智 18

以下是我在今年早些时候研究时发现的一些事情。抱歉，由于我的评分有限，我不能发布多个超链接，因此您必须在 Google 上搜索这些链接。

gscan2pdf

一个非常好的 GUI 系统，可以在后端使用各种 OCR 引擎。这可能会满足您的一键式解决方案（并且 digitxp 已经提到它）。

Tesseract OCR 引擎

可以与 gscan2pdf 一起使用。

http://www.linuxjournal.com/article/9676

章鱼

我对ocropus 的了解并不多，因为它在没有经过广泛培训的情况下无法识别文本。这对书籍来说可能真的很好，但对我来说，账单之类的就不好用了。天啊。

楔形文字

我在Cuneiform 上取得了最大的成功，并且能够通过编写类似于以下工作流程的脚本命令来创建可搜索的 PDF：

# extract images from scans
# (not shown)

# convert to black-and-white
optimize2bw -n -i nuance-test.png  -o bw.bmp                               

# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp

# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html

Run Code Online (Sandbox Code Playgroud)

您还需要安装精确图像包。

OCR'ing PDF 的各种开源项目也使用Cuniform和hocr2pdf：

看OCR
档案管理员

让我知道你发现了什么！

归档时间：	15 年，2 月前
查看次数：	13602 次
最近记录：	9 年，4 月前