相关疑难解决方法(0)

如何从未使用索引构建的 PDF 中提取文本？都是文本，但我无法搜索或选择任何内容。我正在运行 Kubuntu，而 Okular 没有此功能。

46
推荐指数

4
解决办法

6万
查看次数

上周末我去了我祖父母家。我祖母拿出了这本巨大的（约 1400 页）书，讲述了她可以追溯到 1630 年左右的家族史。我是个巨大的书呆子，我认为将所有信息存储在数据库中并从网络上可用会很巧妙。我可以处理所有的网络编程和正则表达式等等，但我不知道将文本从书本传送到计算机的最佳方式。

我知道某种 OCR 是必要的，从我所做的小研究来看，我的选择似乎是：

有没有人对解决这个问题的最佳方法有任何想法？我不想毁掉这本书，因为据我所知，它无法替代。这可能是我唯一一次要扫描一本大书，所以我不认为我想在任何类型的设备上花费超过 250 美元。我不介意这里的一些手动工作（我意识到这很可能需要几个月的时间），但我想找到最有效的方法。

关于这本书的注意事项：它只有大约 20 年的历史，所以它的状态很好。它是单色的，页面还没有开始变黄。由于它太大了，我担心当文本靠近绑定时可能会出现阴影。

作者

13
推荐指数

1
解决办法

1万
查看次数

ocr ×2

pdf ×1