相关疑难解决方法(0)

如何使用 OCR 从 Linux 上的 PDF 中提取文本?

如何从未使用索引构建的 PDF 中提取文本?都是文本,但我无法搜索或选择任何内容。我正在运行 Kubuntu,而 Okular 没有此功能。

linux pdf ocr extract ubuntu

46
推荐指数
4
解决办法
6万
查看次数

将大书转换为数字格式的实用 OCR 解决方案?

上周末我去了我祖父母家。我祖母拿出了这本巨大的(约 1400 页)书,讲述了她可以追溯到 1630 年左右的家族史。我是个巨大的书呆子,我认为将所有信息存储在数据库中并从网络上可用会很巧妙。我可以处理所有的网络编程和正则表达式等等,但我不知道将文本从书本传送到计算机的最佳方式。

我知道某种 OCR 是必要的,从我所做的小研究来看,我的选择似乎是:

  1. 用相机拍下每一页的照片,然后用OCR软件处理图片
  2. 用扫描仪扫描每一页,然后用OCR软件处理
  3. 使用某种手持设备,像这样

有没有人对解决这个问题的最佳方法有任何想法?我不想毁掉这本书,因为据我所知,它无法替代。这可能是我唯一一次要扫描一本大书,所以我不认为我想在任何类型的设备上花费超过 250 美元。我不介意这里的一些手动工作(我意识到这很可能需要几个月的时间),但我想找到最有效的方法。

关于这本书的注意事项:它只有大约 20 年的历史,所以它的状态很好。它是单色的,页面还没有开始变黄。由于它太大了,我担心当文本靠近绑定时可能会出现阴影。

ocr

13
推荐指数
1
解决办法
1万
查看次数

标签 统计

ocr ×2

extract ×1

linux ×1

pdf ×1

ubuntu ×1