NPE*_*NPE 18 linux pdf scanning
我有一个工作流程,我使用富士通 ScanSnap S500文档扫描仪将纸质文档扫描成可搜索的 PDF 。我不是捆绑软件的忠实粉丝,但它使用起来非常简单:将一叠纸放在顶部,按下绿色按钮,就会出现一个可搜索的 PDF。
现在,我想在 Linux (Ubuntu 10.10) 上做类似的事情。扫描仪支持开箱即用。
我看过gscan2pdf
和XSane
:
XSane
看起来很强大,但并不适合作为工作流解决方案;gscan2pdf
有点接近“按下按钮,获取 PDF”的理想,但仍然不是 100%。您可以推荐任何其他软件(免费或其他)?
小智 18
以下是我在今年早些时候研究时发现的一些事情。抱歉,由于我的评分有限,我不能发布多个超链接,因此您必须在 Google 上搜索这些链接。
一个非常好的 GUI 系统,可以在后端使用各种 OCR 引擎。这可能会满足您的一键式解决方案(并且 digitxp 已经提到它)。
可以与 gscan2pdf 一起使用。
我对ocropus 的了解并不多,因为它在没有经过广泛培训的情况下无法识别文本。这对书籍来说可能真的很好,但对我来说,账单之类的就不好用了。天啊。
我在Cuneiform 上取得了最大的成功,并且能够通过编写类似于以下工作流程的脚本命令来创建可搜索的 PDF:
# extract images from scans
# (not shown)
# convert to black-and-white
optimize2bw -n -i nuance-test.png -o bw.bmp
# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp
# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html
Run Code Online (Sandbox Code Playgroud)
您还需要安装精确图像包。
OCR'ing PDF 的各种开源项目也使用Cuniform和hocr2pdf:
让我知道你发现了什么!
归档时间: |
|
查看次数: |
13602 次 |
最近记录: |