标签: tesseract-ocr

OCR Tesseract,空页错误?

我从源代码编译它leptonica。这是一个具有透明背景的 png 图像,我对其进行了编辑,添加了蓝色,但仍然出现此错误:

Tesseract Open Source OCR Engine v3.02.02 with Leptonica
Empty page!!
Empty page!!
Run Code Online (Sandbox Code Playgroud)

这是图像输入:

在此处输入链接描述

ocr tesseract-ocr

7
推荐指数
2
解决办法
2万
查看次数

如何在使用 pdfsandwich 将 OCR 添加到 pdf 时保持 pdf 图像不变?

我正在尝试将 OCR 添加到 PDF,并使用pdfsandwich来执行此操作。问题是 pdfsandwich 在执行 OCR 时处理图像,这会改变文档的外观。

有什么办法可以保证PDF图像保持完全不变吗?如果 pdfsandwich 无法做到这一点,则可以使用替代应用程序来完成此操作。

之前的例子: 前

之后的示例: 后

通过 pdfsandwich 运行 pdf 后,您可以轻松看到质量的下降。

我查看了 pdfsandwich 文档,但找不到任何有关保持图像不变的信息。

pdf scanning ocr tesseract-ocr

7
推荐指数
1
解决办法
913
查看次数

带有非语言文本的 OCR

我对使用 OCR 识别不包含单词的文档中的文本很感兴趣。相反,它是一个带有一长串“随机”打印字符的文档。我一直在尝试使用tesseract来扫描文本,但它似乎在寻找单词。有没有办法告诉 tesseract 只进行简单的字符识别?

ocr tesseract-ocr

5
推荐指数
1
解决办法
7226
查看次数

Tesseract OCR:不支持的图像类型

我在终端上使用以下命令将 PDF 转换为 TIF 文件

convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif

convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif

然后我尝试运行makebox命令,

tesseract lang.font-name.exp0.tif lang.font-name.exp0 batch.nochop makebox

这产生了以下错误:

Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in findTiffCompression: function not present Error in pixReadStreamTiff: function not present Error in pixReadStream: tiff: no pix returned Error in pixRead: pix not read Unsupported image type.

并假设它与libtiff, run 命令有关tesseract -v并发现(或猜测)它丢失了

tesseract 3.02.02 leptonica-1.70 libjpeg 8d : libpng 1.6.10 …

macports homebrew tesseract-ocr macos

5
推荐指数
1
解决办法
6835
查看次数

如何在保留来自 OCR 的嵌入文本的同时压缩 Tesseract 编码的 PDF?

我一直在尝试使用 Tesseract 对我的 PDF 进行 OCR,并且大部分都取得了成功,尤其是德国 Fraktur 文本(旧式哥特式印刷),Adobe Acrobat 等工具无法正确识别。

问题是Tesseract的输出文件比较大,想OCRing后压缩。但是,当我使用 Ghostscript 压缩文件时,他把嵌入的 OCR 文本搞砸了。同样,如果我使用 ImageMagick,嵌入的文本将被删除。有没有解决的办法?从理论上讲,我可以在 OCR 之前进行压缩,但这会使 OCR 准确度变差。

一般来说,我的目标是在我的输出 PDF 文件中包含高质量的 OCR 嵌入文本,并高度压缩嵌入的图像,以便文件不占用几乎相同的空间。我发现 Adob​​e Acrobat Pro 的“另存为其他 > 缩小尺寸的 PDF”功能可以高度压缩图像,但会搞砸任何 OCR 文本。无论文件是在 Acrobat 中进行 OCR 处理,还是使用像 Tesseract 这样的工具,都是如此。

这是我当前的工作流程,使用示例 pdf

将 PDF 拆分为 TIFF 文件

pdftk infile.pdf burst output "temp/page_%03d.pdf"
dpi=130 #this is the dpi of the particular file
parallel convert -verbose -density $dpi "{}" -depth 8 -background white -compress zip "{}.tiff" ::: temp/*.pdf
Run Code Online (Sandbox Code Playgroud)

在每个 TIFF …

compression pdf ocr adobe-acrobat tesseract-ocr

5
推荐指数
0
解决办法
1546
查看次数

“tesseract”到底是什么?

就像许多提供免费/开源版本并销售“商业”版本的软件公司一样,他们使实际下载和使用免费版本变得尽可能神秘和不友好。这是一个典型的例子: https: //mupdf.com/downloads/

有两个适用于 Windows 的不同文件可供下载:

mupdf-1.18.0-windows.zip
mupdf-1.18.0-windows-tesseract.zip
Run Code Online (Sandbox Code Playgroud)

什么是“-tesseract”?不知道。我浏览了该页面、其他页面、在线搜索等等。没有任何线索。没有一个词解释其中的区别或“超正方体”的含义。维基百科的消歧页面也没有暗示它可能指的是什么。

什么是“超立方体”?更重要的是:它与 PDF 查看有什么关系?为什么它是一个单独的文件?

windows pdf open-source tesseract-ocr

5
推荐指数
1
解决办法
1188
查看次数

使用 ffmpeg 进行 JPEG 到 TIFF 的转换

我想在视频中使用Tesseract OCR

使用 ffmpeg,我可以.jpeg从视频中导出一些 ( ) 图像。我可以使用 ffmpeg将 a.jpeg转换为有效.tiff或直接.tiff从视频中导出图像吗?

jpeg ffmpeg tiff image-conversion tesseract-ocr

4
推荐指数
1
解决办法
9065
查看次数

如何从 .png 文件中提取 Unicode 字符?

我想从 .jpg 和 .png 文件中提取 Unicode 字符。

我尝试使用以下命令来做到这一点:

tesseract 1.png output.txt
Run Code Online (Sandbox Code Playgroud)

该命令适用于英文字符,但是当我尝试将它用于 Unicode(如印地语、马拉地语或梵文脚本)时,它会产生错误的输出。

是否有任何选项可以使用 OCR 将 Unicode(梵文)脚本提取到文本文件中?

ocr tesseract-ocr

3
推荐指数
1
解决办法
1544
查看次数