Mas*_*ins 6 image gif type-conversion ods
我有一张桌子的图像(在我的例子中是 .gif)并想提取它原来的桌子(理想情况下是 .ods)。
有什么办法吗?(手动执行被丢弃,因为该表有超过 1000 行和 6 列)
您将能够通过 OCR 获得大部分数据,但您需要手动验证数据并修复一些可能存在的不准确之处。绝对不会是完美的。
首先要做的是确保您拥有 OCR 软件的高质量图像:
这是我对您的示例 png 所做的(我使用的是 Windows):
删除了橙色/蓝色背景:
a) 选择 -> 按颜色并单击蓝色背景
b)我按住Shift并单击橙色背景(这会将其添加到当前选择中)
c) 编辑 -> 填充 BG 颜色(这将其设置为白色)
d) Ctrl- Shift-A取消选择
我删除了部分切断的“305”行:
a) 使用调色板中的矩形选择工具按钮,并用 BG 颜色填充选区,如上
让我们移除表格边框:
a) 单击调色板中的“模糊选择”工具按钮
b) 单击表格边框上的某处(您应该看到“行进的蚂蚁”而不是边框)
c) 编辑 -> 填充 BG 颜色
d) Ctrl- Shift-A再次取消选择
我们需要增加数字使用的像素数,以便 OCR 可以更好地检测它们的形状
a) 图像 -> 缩放图像。我选择使用线性插值按 1000% 进行缩放(其他插值不起作用)
a) 在命令提示符下键入(包括双引号以处理路径中的空格,并根据需要更改路径):“D:\Program Files (x86)\Tesseract-OCR\tesseract”“d:\temp \your_image.png" "d:\temp\your_txt_file_output"
输出是带有附加.txt扩展名的文本文件。它仍然会有一些工件,但我们可以轻松地在 Notepad++(或类似的)中更正这些:
a) 逗号被视为句号,所以我对“.”进行了查找和替换。使用“,”(我假设您的数据中没有任何小数点!)
b)在几个逗号之前有一些空格,所以我用“,”查找和替换“,”(注意我在查找中的逗号之前包含了一个空格)
c) 数字中还有一些空格,所以我用“”查找并替换了“”(带有空替换的空格)
这给出了以下结果:
298
299
300
301
302
303
304
910820000
920820000
930820000
941820000
952820000
983820000
9?4820000
210000
220000
220000
220000
220000
220000
220000
2500
2500
3000
3000
3000
3000
3000
19000
19000
20000
20000
20000
20000
20000
请注意第二个文本块中 7 处的问号。这样的事情还是需要整理的。
最后,您将文本行复制并粘贴到电子表格等中。
| 归档时间: |
|
| 查看次数: |
8227 次 |
| 最近记录: |