标签: ocr

如何对 PDF 文档进行 OCR?

可能的重复:
如何在 Linux 上使用 OCR 从 PDF 中提取文本?

我有一些英语和希伯来语文档,我扫描并转换为 PDF 格式。

是否有一些免费或便宜的实用程序可以处理扫描的 PDF 并进行 OCR,至少是英语,最好是希伯来语?

谢谢!

pdf ocr english hebrew

6
推荐指数
1
解决办法
5316
查看次数

如何使用 Photoshop 从 JPEG 图像中恢复像素化文本?

我有一个带有文本的 JPEG 图像(扫描错误的文档),几乎无法阅读。我已经尝试过锐化滤镜、对比度、色阶和颜色替换工具,并取得了不错的成功。

我的问题是,为了最大限度地提高文本的可读性,还可以做些什么?画面也有些嘈杂。

jpeg ocr image-editing

6
推荐指数
1
解决办法
9万
查看次数

OCR 可以混淆字母大小写吗?

OCR 有时会混淆字母大小写吗?例如,在某些时候“t”被解释为“T”或“r”被解释为“R”?

ocr characters

6
推荐指数
1
解决办法
340
查看次数

Firefox 和 chrome 的 OCR 图像识别插件?

有时我需要对在某些网页上偶然发现的图像进行 OCR。我想知道是否有任何适用于 Firefox 和 Chrome 的插件可以让我上传所需的图像以在他们的服务器上进行处理,识别它并将结果发回给我。

firefox google-chrome ocr browser-addons

6
推荐指数
1
解决办法
3730
查看次数

Windows 7 中的命令行 OCR

有哪些命令行 OCR 实用程序可以在 64 位 Windows 7 中运行?

windows-7 64-bit software-rec ocr command-line

5
推荐指数
1
解决办法
2万
查看次数

如何使用 OCR 用格式化文本替换 PDF 中的文本图像

我从其他人那里得到了很多由扫描的旧文档组成的 PDF。不幸的是,有时扫描件上的文字虽然清晰易读,但看起来颗粒状且难以阅读。

到目前为止,我能够做的是使用 OCR 将文本提取到 Word 文档中。然而,由于这些旧文档通常有插图和复杂的格式,我真正想做的就是删除旧的颗粒状文本并用计算机生成的字体替换它。换句话说,我想最大程度地保留 PDF 及其页面的格式,同时通过将其替换为“新罗马”来“清理”文本。

几天来,我一直在网上寻找一种简单、可自动化的方法来执行此类清理,但到目前为止我还没有找到任何东西。似乎应该有一种方法可以做到这一点,它似乎并不那么复杂,但也许我忽略了这个问题的某些方面,将其置于 OCR 目前可行的范围之外。

有什么建议?

pdf automation ocr documents

5
推荐指数
1
解决办法
3310
查看次数

是否有任何可以处理非拉丁字符的 OCR 程序?

我正在寻找可以处理希伯来语字符的 OCR 程序。我愿意在 Mac 或 PC 上使用某些东西,但它需要是一个可靠的程序。

我有哪些选择?

software-rec ocr

5
推荐指数
1
解决办法
877
查看次数

有没有更好的方法来纠正 Adob​​e Acrobat 的 OCR 结果中的错误?

我正在使用集成到 Adob​​e Acrobat Pro 8 中的 OCR 文本识别来为我扫描的文本页面生成(不可见的)可搜索文本覆盖。这对于将一些短语复制到剪贴板或进行文本搜索非常有用。

在某些情况下,Adobe 的工作相当糟糕,在某些情况下,它只会产生一些拼写错误,从而导致无法搜索到相应的单词或句子。在Adobe 论坛中,用户 strontium87解释说您可以手动显示文本,然后使用 Touchup Text 工具进行修改,然后再次将其设置为不可见。由于这种方法非常麻烦 - 有没有人知道更简单的方法来做到这一点?也许使用外部工具?

ocr adobe-acrobat

5
推荐指数
1
解决办法
2315
查看次数

这个符号“Ø”是什么以及如何从 MS Word 2013 文件中删除它?

我使用 OCR 程序将一些扫描的页面转换为 MS Word 文件。

\n

转换后可以\xc2\xac在许多单词的中间找到该符号。

\n

我尝试搜索并替换它,但单词无法检测到它。

\n

它是什么以及如何删除它?

\n

ocr symbols unicode microsoft-word-2013

5
推荐指数
1
解决办法
2万
查看次数

使用 pdftotext 将 PDF 转换为文本时可以修改编码吗?

有时当我pdftotext这样做时会产生完美的文本。我认为这是因为实际的 unicode 文本数据直接嵌入到 PDF 本身中,并且只需读出即可。

\n\n

但其他时候(大约一半或更多的文档不只是直接扫描的图像)它会导致〜奇怪的字形〜代替诸如变音符号和重音符号之类的东西,有时甚至是看起来模糊的字母。

\n\n

例如,这个约鲁巴语词典 PDF就存在这些问题。如果你运行这个:

\n\n
pdftotext yoruba.pdf yoruba.txt\n
Run Code Online (Sandbox Code Playgroud)\n\n

你最终会看到这些词散布在各处:

\n\n
expected     actual\n--------     ------\nlairot\xe1\xba\xb9le    lairot4ille\nik\xe1\xbb\x8dsil\xe1\xba\xb9      ikljlsil4il\nlog\xc3\xb3         logb\n
Run Code Online (Sandbox Code Playgroud)\n\n

请注意,重音符号\xc3\xb3变成了字母b。但并不是每个 \xc3\xb3 都变成了 doc 中的 ab。许多人这样做,但不是全部。与\xe1\xba\xb9a相同4il。许多人都变成这样,可能是所有人。大多数时候(我的感觉是)更晦涩的重音符号/变音符号\xe1\xba\xb9会被转换成陌生的字符或字符序列

\n\n

为什么是这样?是 OCR 的东西吗?或者PDF实际上是否嵌入了纯文本(即它不是图像的扫描文档)?然而,它在某种程度上没有被正确解码。我想知道这个问题的答案,所以至少我知道这是 OCR 问题或编码/解码问题。

\n\n

如果这是一个编码问题,那就很有趣了。那么我的问题是,我可以告诉pdftotext使用一些晦涩的解码技术吗?或者是什么。

\n\n

我提出这个问题的部分原因是我最近发现了一些网页是用 或 编码的ucs2latin1有些甚至是用一些奇怪的windows2255或某种编码编码的。因此,我必须修改编码/解码才能正确提取 HTML 文档中的文本。我想知道在这种情况下同样的情况是否也适用于 PDF。

\n\n

另一个遇到此问题的文档是纳瓦霍词典。我不知道这是 OCR …

encoding pdf ocr unicode character-encoding

5
推荐指数
0
解决办法
346
查看次数