从 .PDF 扫描书籍中提取文本

Question

我有一本 PDF 格式的扫描书，但质量很差：

在此处输入图片说明

（语言是罗马尼亚语，是一本医学生理学书籍，以防万一）

我想从书中提取文本（1500 页），但保持图像的原样。我真的不认为我有任何机会找到解决方案，所以我一定会买这本书。

在偶然的情况下，是否有任何功能强大的软件可以做我正在寻找的事情？它还必须承认罗马尼亚语。

Answer 1

我之前发布了一个答案，详细说明了如何使用Cuneiform（开源软件）对 PDF 文件进行 OCR 以及如何在原始图像“后面”的隐藏文本层中创建带有识别文本的 PDF 文件。据我所知，楔形文字实际上也支持罗马尼亚语。

虽然特定的解决方案适用于 Linux，但楔形文字也适用于 Windows。

Answer 2

我买了书！