我从源代码编译它leptonica。这是一个具有透明背景的 png 图像,我对其进行了编辑,添加了蓝色,但仍然出现此错误:
Tesseract Open Source OCR Engine v3.02.02 with Leptonica
Empty page!!
Empty page!!
Run Code Online (Sandbox Code Playgroud)
这是图像输入:

我正在尝试将 OCR 添加到 PDF,并使用pdfsandwich来执行此操作。问题是 pdfsandwich 在执行 OCR 时处理图像,这会改变文档的外观。
有什么办法可以保证PDF图像保持完全不变吗?如果 pdfsandwich 无法做到这一点,则可以使用替代应用程序来完成此操作。
通过 pdfsandwich 运行 pdf 后,您可以轻松看到质量的下降。
我查看了 pdfsandwich 文档,但找不到任何有关保持图像不变的信息。
我对使用 OCR 识别不包含单词的文档中的文本很感兴趣。相反,它是一个带有一长串“随机”打印字符的文档。我一直在尝试使用tesseract来扫描文本,但它似乎在寻找单词。有没有办法告诉 tesseract 只进行简单的字符识别?
我在终端上使用以下命令将 PDF 转换为 TIF 文件
convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif
convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif
然后我尝试运行makebox命令,
tesseract lang.font-name.exp0.tif lang.font-name.exp0 batch.nochop makebox
这产生了以下错误:
Tesseract Open Source OCR Engine v3.02.02 with Leptonica
Error in findTiffCompression: function not present
Error in pixReadStreamTiff: function not present
Error in pixReadStream: tiff: no pix returned
Error in pixRead: pix not read
Unsupported image type.
并假设它与libtiff, run 命令有关tesseract -v并发现(或猜测)它丢失了
tesseract 3.02.02
leptonica-1.70
libjpeg 8d : libpng 1.6.10 …
我一直在尝试使用 Tesseract 对我的 PDF 进行 OCR,并且大部分都取得了成功,尤其是德国 Fraktur 文本(旧式哥特式印刷),Adobe Acrobat 等工具无法正确识别。
问题是Tesseract的输出文件比较大,想OCRing后压缩。但是,当我使用 Ghostscript 压缩文件时,他把嵌入的 OCR 文本搞砸了。同样,如果我使用 ImageMagick,嵌入的文本将被删除。有没有解决的办法?从理论上讲,我可以在 OCR 之前进行压缩,但这会使 OCR 准确度变差。
一般来说,我的目标是在我的输出 PDF 文件中包含高质量的 OCR 嵌入文本,并高度压缩嵌入的图像,以便文件不占用几乎相同的空间。我发现 Adobe Acrobat Pro 的“另存为其他 > 缩小尺寸的 PDF”功能可以高度压缩图像,但会搞砸任何 OCR 文本。无论文件是在 Acrobat 中进行 OCR 处理,还是使用像 Tesseract 这样的工具,都是如此。
这是我当前的工作流程,使用示例 pdf。
将 PDF 拆分为 TIFF 文件
pdftk infile.pdf burst output "temp/page_%03d.pdf"
dpi=130 #this is the dpi of the particular file
parallel convert -verbose -density $dpi "{}" -depth 8 -background white -compress zip "{}.tiff" ::: temp/*.pdf
Run Code Online (Sandbox Code Playgroud)
在每个 TIFF …
就像许多提供免费/开源版本并销售“商业”版本的软件公司一样,他们使实际下载和使用免费版本变得尽可能神秘和不友好。这是一个典型的例子: https: //mupdf.com/downloads/
有两个适用于 Windows 的不同文件可供下载:
mupdf-1.18.0-windows.zip
mupdf-1.18.0-windows-tesseract.zip
Run Code Online (Sandbox Code Playgroud)
什么是“-tesseract”?不知道。我浏览了该页面、其他页面、在线搜索等等。没有任何线索。没有一个词解释其中的区别或“超正方体”的含义。维基百科的消歧页面也没有暗示它可能指的是什么。
什么是“超立方体”?更重要的是:它与 PDF 查看有什么关系?为什么它是一个单独的文件?
我想在视频中使用Tesseract OCR。
使用 ffmpeg,我可以.jpeg从视频中导出一些 ( ) 图像。我可以使用 ffmpeg将 a.jpeg转换为有效.tiff或直接.tiff从视频中导出图像吗?
我想从 .jpg 和 .png 文件中提取 Unicode 字符。
我尝试使用以下命令来做到这一点:
tesseract 1.png output.txt
Run Code Online (Sandbox Code Playgroud)
该命令适用于英文字符,但是当我尝试将它用于 Unicode(如印地语、马拉地语或梵文脚本)时,它会产生错误的输出。
是否有任何选项可以使用 OCR 将 Unicode(梵文)脚本提取到文本文件中?