我有一个tiff文件,其中包含一些由制表符分隔的文本(4个空格).但是当我从这个tiff图像文件中提取文本时,我总是在两列之间得到一个空格.示例示例:
TIFF IMAGE:
col-a col-b col-c
desired output:
col-a col-b col-c
but I am getting the following:
col-a col-b col-c
Run Code Online (Sandbox Code Playgroud)
我尝试使用相同格式的多个图像,但结果始终相同.我该如何解决这个问题?我可以训练tesseract来理解这个吗?
经过长时间的研究,我找到了解决方案.以下是要遵循的步骤
将您的tesseract升级到3.04
创建config.txt(在您输入图像文件的目录中创建一个文件)
在配置文件中定义" preserve_interword_spaces "
在工作之后,preserve_interword_spaces给出0或1. Ex:
preserve_interword_spaces 0
要么
preserve_interword_spaces 1
| 归档时间: |
|
| 查看次数: |
5459 次 |
| 最近记录: |