Tesseract - 空间和标签中的歧义

Question

我有一个tiff文件,其中包含一些由制表符分隔的文本(4个空格).但是当我从这个tiff图像文件中提取文本时,我总是在两列之间得到一个空格.示例示例:

TIFF IMAGE:
col-a    col-b    col-c

desired output:
col-a    col-b    col-c

but I am getting the following:
col-a col-b col-c

我尝试使用相同格式的多个图像,但结果始终相同.我该如何解决这个问题？我可以训练tesseract来理解这个吗？

Answer 1

经过长时间的研究,我找到了解决方案.以下是要遵循的步骤

preserve_interword_spaces 0

要么

preserve_interword_spaces 1