如何从未使用索引构建的 PDF 中提取文本?都是文本,但我无法搜索或选择任何内容。我正在运行 Kubuntu,而 Okular 没有此功能。
上周末我去了我祖父母家。我祖母拿出了这本巨大的(约 1400 页)书,讲述了她可以追溯到 1630 年左右的家族史。我是个巨大的书呆子,我认为将所有信息存储在数据库中并从网络上可用会很巧妙。我可以处理所有的网络编程和正则表达式等等,但我不知道将文本从书本传送到计算机的最佳方式。
我知道某种 OCR 是必要的,从我所做的小研究来看,我的选择似乎是:
有没有人对解决这个问题的最佳方法有任何想法?我不想毁掉这本书,因为据我所知,它无法替代。这可能是我唯一一次要扫描一本大书,所以我不认为我想在任何类型的设备上花费超过 250 美元。我不介意这里的一些手动工作(我意识到这很可能需要几个月的时间),但我想找到最有效的方法。
关于这本书的注意事项:它只有大约 20 年的历史,所以它的状态很好。它是单色的,页面还没有开始变黄。由于它太大了,我担心当文本靠近绑定时可能会出现阴影。