将大书转换为数字格式的实用 OCR 解决方案?

13 ocr

上周末我去了我祖父母家。我祖母拿出了这本巨大的(约 1400 页)书,讲述了她可以追溯到 1630 年左右的家族史。我是个巨大的书呆子,我认为将所有信息存储在数据库中并从网络上可用会很巧妙。我可以处理所有的网络编程和正则表达式等等,但我不知道将文本从书本传送到计算机的最佳方式。

我知道某种 OCR 是必要的,从我所做的小研究来看,我的选择似乎是:

  1. 用相机拍下每一页的照片,然后用OCR软件处理图片
  2. 用扫描仪扫描每一页,然后用OCR软件处理
  3. 使用某种手持设备,像这样

有没有人对解决这个问题的最佳方法有任何想法?我不想毁掉这本书,因为据我所知,它无法替代。这可能是我唯一一次要扫描一本大书,所以我不认为我想在任何类型的设备上花费超过 250 美元。我不介意这里的一些手动工作(我意识到这很可能需要几个月的时间),但我想找到最有效的方法。

关于这本书的注意事项:它只有大约 20 年的历史,所以它的状态很好。它是单色的,页面还没有开始变黄。由于它太大了,我担心当文本靠近绑定时可能会出现阴影。

cal*_*ban 9

很久以前我在 Lifehacker 上遇到过这个,从那以后它一直是我最重要的 DIY 项目之一。

在此处输入图片说明

用任何相机或成像替换 iPhone,你会得到一堆漂亮的高分辨率 jpeg,准备好用任何软件进行 OCR,甚至(呃!)MS Office ......;)

便宜的。有效的。DIY。你无法击败这样的想法。

编辑:评论提出了一些关于阴影、页面卷曲等的观点。对于那些从字面上影印图书馆文本的人来说,很容易解决。

添加多个光源来照亮书本,并消除阴影。

将书与页面成 90 度倾斜,不要卷曲到中间的装订处。它还保留了绑定。

我会看看我是否可以举个例子并自己设置一个。

编辑 2:上传了你应该如何拿着这本书的样本,并注意左边的光源。

在此处输入图片说明