Tesseract - 空间和标签中的歧义

use*_*191 1 ocr tesseract

我有一个tiff文件,其中包含一些由制表符分隔的文本(4个空格).但是当我从这个tiff图像文件中提取文本时,我总是在两列之间得到一个空格.示例示例:

TIFF IMAGE:
col-a    col-b    col-c

desired output:
col-a    col-b    col-c

but I am getting the following:
col-a col-b col-c
Run Code Online (Sandbox Code Playgroud)

我尝试使用相同格式的多个图像,但结果始终相同.我该如何解决这个问题?我可以训练tesseract来理解这个吗?

Pav*_*ati 7

经过长时间的研究,我找到了解决方案.以下是要遵循的步骤

  1. 将您的tesseract升级到3.04

  2. 创建config.txt(在您输入图像文件的目录中创建一个文件)

  3. 在配置文件中定义" preserve_interword_spaces "

  4. 在工作之后,preserve_interword_spaces给出0或1. Ex:

preserve_interword_spaces 0

要么

preserve_interword_spaces 1

  1. 测试和欢呼!!!