有时,我发现自己从屏幕截图中输入了大量文本。它相当乏味。
是否有 OCR(光学字符识别)程序可以让我快速将屏幕截图或 Windows 剪贴板(位图)的内容转换为文本?
我对使用 OCR 识别不包含单词的文档中的文本很感兴趣。相反,它是一个带有一长串“随机”打印字符的文档。我一直在尝试使用tesseract来扫描文本,但它似乎在寻找单词。有没有办法告诉 tesseract 只进行简单的字符识别?
OneNote 有一个很棒的 OCR 功能,您可以在其中选择图像并单击make text in image searchable。
但我希望默认情况下为粘贴到 OneNote 中的所有图像启用此功能 - 这可能吗?(目前它似乎很受欢迎 - 我经常需要右键单击我想要搜索的每个图像)
我一直在尝试使用 Tesseract 对我的 PDF 进行 OCR,并且大部分都取得了成功,尤其是德国 Fraktur 文本(旧式哥特式印刷),Adobe Acrobat 等工具无法正确识别。
问题是Tesseract的输出文件比较大,想OCRing后压缩。但是,当我使用 Ghostscript 压缩文件时,他把嵌入的 OCR 文本搞砸了。同样,如果我使用 ImageMagick,嵌入的文本将被删除。有没有解决的办法?从理论上讲,我可以在 OCR 之前进行压缩,但这会使 OCR 准确度变差。
一般来说,我的目标是在我的输出 PDF 文件中包含高质量的 OCR 嵌入文本,并高度压缩嵌入的图像,以便文件不占用几乎相同的空间。我发现 Adobe Acrobat Pro 的“另存为其他 > 缩小尺寸的 PDF”功能可以高度压缩图像,但会搞砸任何 OCR 文本。无论文件是在 Acrobat 中进行 OCR 处理,还是使用像 Tesseract 这样的工具,都是如此。
这是我当前的工作流程,使用示例 pdf。
将 PDF 拆分为 TIFF 文件
pdftk infile.pdf burst output "temp/page_%03d.pdf"
dpi=130 #this is the dpi of the particular file
parallel convert -verbose -density $dpi "{}" -depth 8 -background white -compress zip "{}.tiff" ::: temp/*.pdf
Run Code Online (Sandbox Code Playgroud)
在每个 TIFF …
在 Adobe Acrobat 中(如果重要的话,我使用的是 Pro DC),OCR 有三个选项:
这三个选项有什么区别?
特别是,什么决定了输出文件的大小?现在我一直在运行第一个和第三个选项,似乎有时一个更大,有时另一个更大(差异可能很大)。
OCR 处理的质量、文件大小和速度之间有什么(如果有)权衡?
我正在寻找一个在线 OCR 网站,用于一次性处理多页 pdf 文件。免费的最好。
我知道http://www.newocr.com/。如果我是正确的,它一次只能对一页进行 OCR,方法是手动单击“预览”,然后单击每一页的“OCR”。每个页面经过OCR后,我也必须手动复制文本结果。
如果我的pdf文件有30~页,每页重复上面的过程会很繁琐。不知道有没有别的网站可以OCR整个pdf文件,不要求我手动操作?
谢谢!
假设您有 2 个“已扫描”的 pdf 文件。
两个文件都包含相同的图像,只是压缩方式不同。
目标是将相同的文本层嵌入到第一个 pdf 中。
“仅 OCR 1st 文件”不是解决方案。我知道 Acrobat(和其他一些工具)能够在不改变图像层的情况下进行 OCR,但我对它们的 OCR 质量不满意。
所以,我看到了两种可能的方式:
关于第一种方式,我什么也没找到。关于第二种方式,我找到了两个工具,它们非常接近hocr2pdf和pdf2text,但据我所知,它们仍然不够。:(
PS:使用示例:
我刚刚发现了另一个示例,其中此类操作以系统的方式很有用。
如果你扫描了 pdf-1(没有文本层),比如“jpg”图像压缩,Abbyy Finereader 会给你 OCR 的 pdf,pdf-2。如果您选择无损图像压缩,它要么非常大,要么其图像质量明显低于 pdf-1。在许多情况下,最好的选择是保持源图像压缩原样,不要重新压缩图像。
我看了一下 MyScript,但该程序不接受 PDF 格式。
我有一些文档 (PDF) 是手写扫描件。
我需要一个可以扫描 PDF、使用 OCR 并将其转换为文本的程序。
这样的东西存在吗?
我有一个相当大的项目,最终将造福社会,我正在寻找我能召集的所有帮助。我有大约 130,000 页需要数字化。它们中的许多都装在有订书钉的包装里,或者是用了 40 多年的纸(与今天的纸相比非常薄)。其中一些尺寸奇怪(全尺寸合法,地图和小明信片尺寸......)。但是,我们只有大约 10 天的时间来处理这项工作(一旦我们到达现场)。我们可以通宵工作。
我有一个 6 人的团队,我们完成这项任务的预算相对较少。我们考虑过现代扫描仪(例如进纸托盘 fujitsu scansnap),它可以以约 25ppm(每分钟页数)的速度处理页面,但我们担心页面被撕裂或卡住(并且我们正在努力不危及原件) . 还有订书钉的问题(可以删除......)。我们可以做平板,但是哇,手动完成这是一项艰巨的工作!对于非常大的零件,我们总是可以这样做。
我希望你们对如何实现这一点有一些非常聪明的想法......非常感谢您的时间和帮助
编辑似乎组合方法(高级纸扫描仪 + 垂直复印架)效果最好,以确保所需的页数/分钟。一个离线建议:复印机?如果我们先简单地复印整个收藏,然后让复印机继续发送数字,或者在扫描仪中复印复印件,我们会假设会发生什么。对我来说这似乎是双重工作,但我对技术的胆量不够熟悉,无法更好地了解。