从 .PDF 扫描书籍中提取文本

Chr*_*anM 7 pdf ocr

我有一本 PDF 格式的扫描书,但质量很差:

在此处输入图片说明

(语言是罗马尼亚语,是一本医学生理学书籍,以防万一)

我想从书中提取文本(1500 页),但保持图像的原样。我真的不认为我有任何机会找到解决方案,所以我一定会买这本书。

在偶然的情况下,是否有任何功能强大的软件可以做我正在寻找的事情?它还必须承认罗马尼亚语。

小智 6

我之前发布了一个答案,详细说明了如何使用Cuneiform(开源软件)对 PDF 文件进行 OCR 以及如何在原始图像“后面”的隐藏文本层中创建带有识别文本的 PDF 文件。据我所知,楔形文字实际上也支持罗马尼亚语。

虽然特定的解决方案适用于 Linux,但楔形文字也适用于 Windows。


Chr*_*anM 2

我买了书!