标签: ocr

是否有实用程序可以对 Windows 剪贴板上的图像进行 OCR?

有时,我发现自己从屏幕截图中输入了大量文本。它相当乏味。

是否有 OCR(光学字符识别)程序可以让我快速将屏幕截图或 Windows 剪贴板(位图)的内容转换为文本?

windows clipboard screen-capture ocr

5
推荐指数
2
解决办法
9309
查看次数

带有非语言文本的 OCR

我对使用 OCR 识别不包含单词的文档中的文本很感兴趣。相反,它是一个带有一长串“随机”打印字符的文档。我一直在尝试使用tesseract来扫描文本,但它似乎在寻找单词。有没有办法告诉 tesseract 只进行简单的字符识别?

ocr tesseract-ocr

5
推荐指数
1
解决办法
7226
查看次数

在 Onenote 中,如何默认启用“使图像中的文本可搜索”?

OneNote 有一个很棒的 OCR 功能,您可以在其中选择图像并单击make text in image searchable

但我希望默认情况下为粘贴到 OneNote 中的所有图像启用此功能 - 这可能吗?(目前它似乎很受欢迎 - 我经常需要右键单击我想要搜索的每个图像

search ocr images microsoft-onenote

5
推荐指数
1
解决办法
7458
查看次数

如何在保留来自 OCR 的嵌入文本的同时压缩 Tesseract 编码的 PDF?

我一直在尝试使用 Tesseract 对我的 PDF 进行 OCR,并且大部分都取得了成功,尤其是德国 Fraktur 文本(旧式哥特式印刷),Adobe Acrobat 等工具无法正确识别。

问题是Tesseract的输出文件比较大,想OCRing后压缩。但是,当我使用 Ghostscript 压缩文件时,他把嵌入的 OCR 文本搞砸了。同样,如果我使用 ImageMagick,嵌入的文本将被删除。有没有解决的办法?从理论上讲,我可以在 OCR 之前进行压缩,但这会使 OCR 准确度变差。

一般来说,我的目标是在我的输出 PDF 文件中包含高质量的 OCR 嵌入文本,并高度压缩嵌入的图像,以便文件不占用几乎相同的空间。我发现 Adob​​e Acrobat Pro 的“另存为其他 > 缩小尺寸的 PDF”功能可以高度压缩图像,但会搞砸任何 OCR 文本。无论文件是在 Acrobat 中进行 OCR 处理,还是使用像 Tesseract 这样的工具,都是如此。

这是我当前的工作流程,使用示例 pdf

将 PDF 拆分为 TIFF 文件

pdftk infile.pdf burst output "temp/page_%03d.pdf"
dpi=130 #this is the dpi of the particular file
parallel convert -verbose -density $dpi "{}" -depth 8 -background white -compress zip "{}.tiff" ::: temp/*.pdf
Run Code Online (Sandbox Code Playgroud)

在每个 TIFF …

compression pdf ocr adobe-acrobat tesseract-ocr

5
推荐指数
0
解决办法
1546
查看次数

了解 Adob​​e Acrobat 中的 OCR 选项:“可搜索图像”、“可搜索图像(精确)”和“可编辑文本和图像”

在 Adob​​e Acrobat 中(如果重要的话,我使用的是 Pro DC),OCR 有三个选项:

  1. “可搜索图像”。
  2. “可搜索图像(精确)”。
  3. “可编辑的文本和图像”。

在此处输入图片说明

这三个选项有什么区别?

特别是,什么决定了输出文件的大小?现在我一直在运行第一个和第三个选项,似乎有时一个更大,有时另一个更大(差异可能很大)。

OCR 处理的质量、文件大小和速度之间有什么(如果有)权衡?

ocr adobe-acrobat

5
推荐指数
1
解决办法
1万
查看次数

图像到文本转换器

我需要一个可以将扫描文本转换为可编辑文本的软件。我会更喜欢免费软件?

ocr images

4
推荐指数
1
解决办法
1401
查看次数

一次处理整个 pdf 文件的在线 OCR 网站?

我正在寻找一个在线 OCR 网站,用于一次性处理多页 pdf 文件。免费的最好。

我知道http://www.newocr.com/。如果我是正确的,它一次只能对一页进行 OCR,方法是手动单击“预览”,然后单击每一页的“OCR”。每个页面经过OCR后,我也必须手动复制文本结果。

如果我的pdf文件有30~页,每页重复上面的过程会很繁琐。不知道有没有别的网站可以OCR整个pdf文件,不要求我手动操作?

谢谢!

ocr

4
推荐指数
1
解决办法
2万
查看次数

将pdf文本层复制到另一个pdf

假设您有 2 个“已扫描”的 pdf 文件。

  1. 大,但没有文字层。
  2. 较小(具有较低质量的图像),但具有正确的文本层。

两个文件都包含相同的图像,只是压缩方式不同。

目标是将相同的文本层嵌入到第一个 pdf 中。

“仅 OCR 1st 文件”不是解决方案。我知道 Acrobat(和其他一些工具)能够在不改变图像层的情况下进行 OCR,但我对它们的 OCR 质量不满意。

所以,我看到了两种可能的方式:

  1. 以某种方式导出导入文本层
  2. 以某种方式替换图像层中的图像。

关于第一种方式,我什么也没找到。关于第二种方式,我找到了两个工具,它们非常接近hocr2pdfpdf2text,但据我所知,它们仍然不够。:(

PS:使用示例:

我刚刚发现了另一个示例,其中此类操作以系统的方式很有用。

如果你扫描了 pdf-1(没有文本层),比如“jpg”图像压缩,Abbyy Finereader 会给你 OCR 的 pdf,pdf-2。如果您选择无损图像压缩,它要么非常大,要么其图像质量明显低于 pdf-1。在许多情况下,最好的选择是保持源图像压缩原样,不要重新压缩图像。

pdf ocr adobe-acrobat

4
推荐指数
1
解决办法
4553
查看次数

有什么软件可以把手写体转成文字?

我看了一下 MyScript,但该程序不接受 PDF 格式。

我有一些文档 (PDF) 是手写扫描件。

我需要一个可以扫描 PDF、使用 OCR 并将其转换为文本的程序。

这样的东西存在吗?

windows pdf ocr

3
推荐指数
1
解决办法
3万
查看次数

如何在 10 天内有效扫描 130,000 页纸页

我有一个相当大的项目,最终将造福社会,我正在寻找我能召集的所有帮助。我有大约 130,000 页需要数字化。它们中的许多都装在有订书钉的包装里,或者是用了 40 多年的纸(与今天的纸相比非常薄)。其中一些尺寸奇怪(全尺寸合法,地图和小明信片尺寸......)。但是,我们只有大约 10 天的时间来处理这项工作(一旦我们到达现场)。我们可以通宵工作。  

我有一个 6 人的团队,我们完成这项任务的预算相对较少。我们考虑过现代扫描仪(例如进纸托盘 fujitsu scansnap),它可以以约 25ppm(每分钟页数)的速度处理页面,但我们担心页面被撕裂或卡住(并且我们正在努力不危及原件) . 还有订书钉的问题(可以删除......)。我们可以做平板,但是哇,手动完成这是一项艰巨的工作!对于非常大的零件,我们总是可以这样做。

我希望你们对如何实现这一点有一些非常聪明的想法......非常感谢您的时间和帮助 


编辑似乎组合方法(高级纸扫描仪 + 垂直复印架)效果最好,以确保所需的页数/分钟。一个离线建议:复印机?如果我们先简单地复印整个收藏,然后让复印机继续发送数字,或者在扫描仪中复印复印件,我们会假设会发生什么。对我来说这似乎是双重工作,但我对技术的胆量不够熟悉,无法更好地了解。

scanning ocr archiving paper document-scanning

3
推荐指数
2
解决办法
1681
查看次数