Tesseract 多种输出格式

Emm*_*Lin 5 ocr tesseract

我的背景

我正在使用 tesseract 从图像中提取文本。

我正在生成一个.tsv来检索提取的文本并对其执行一些正则表达式,并生成一个.pdf以获得可搜索的 pdf。

我的方法是调用 tesseract 两次:

  • 一个要求 .tsv
  • 有人索要 .pdf

但我觉得这不是很有效(相同的计算必须进行两次)

我的愿望是什么

我希望让我的计算速度更快。我的想法是只调用一次 tesseract 但指定两种输出格式

是否可以?如果是这样怎么办?

ngu*_*enq 5

你可以尝试一下命令:

tesseract yourimage.tif out pdf tsv