如何将扫描的手写表格转换为 Excel 电子表格?

4 microsoft-excel

直到现在,我的祖父母都是手写他们的财务记录,但他们的非草书笔迹比下面的图片更整洁、更清晰。在他们扫描每一页后,Excel 2019 是否可以自动将扫描的图像立即转换为 Excel 电子表格?即使 OCR 识别出文字和数字,排列每个文字和数字也会消耗太多时间。

这是第二张图片的来源这篇 2016 年 Reddit 帖子没有产生任何帮助。

在此处输入图片说明

在此处输入图片说明

fix*_*234 5

我必须同意music2myear 的回答

对于您可以访问的任何计算机,您无法执行任何有用的操作来将手写记录转换为 Excel。

至少有三项艰巨的任务:

  1. 区分“内容”和非内容。
  2. 识别布局并将其转换为单元格位置。
  3. 识别手写字符并将其翻译成文本。

消费者软件和在线服务是可用的,并且可以将干净的表格格式的机器打印文本转换为电子表格文件。但即使是最好的也远非完美。这只是根据其位置将文本分配给正确单元格的任务。

当您查看这些图像时,您的大脑非常擅长理清什么是“预印形式”、什么是内容、什么是噪音,以及什么是不相关的人类标记。您可以识别事物是如何对齐的,以及基于上下文的事物是什么。对于计算机来说,所有不是背景颜色的东西都是“东西”。弄清楚哪些对您来说很重要,哪些可能是要翻译的某种字符是非常困难的。如果内容与预印行重叠,则会导致计算机无法轻松处理的中断和丢失数据。

以您的图像为例。第一个图像是一个失败的原因。其中大部分都忽略了线条和布局。您还需要完成从内容中分离和删除预印网格的额外任务。在第二张图片中,内容大部分在网格的边界内,但有很多需要清理的杂散标记(斜线、下划线等)。

然而,最困难的部分是识别笔迹并将其转换为计算机文本。对于图像 1,即使是人类也很难弄清楚其中的一些是什么,并且需要根据上下文和对单词的熟悉程度进行大量猜测。在图像 2 中,大多数数字都还不错,但文本会出现问题。

如果您祖父母的记录是非草书的、整洁的、清晰的、一致的,并且类似于机器打印,那么 OCR 可能会在上面做“合理”的工作。但是你仍然会有很多清理工作。

从角度来看,美国邮政服务拥有一些最先进的手写识别技术,它用于读取邮件上的地址,以便使用自动化设备对它们进行分类。他们能够做到这一点的唯一方法是因为地址采用规定的结构和格式,并且他们提前知道每个可能的地址。目标更多的是将手写地址与可行的候选者匹配,而不是让每个字符都正确。

有大量的冗余。如果您只能破译一半的字符,则仍然可能只有一个或几个可能的匹配项。即便如此,很大一部分需要人工干预。当它完成并且邮件到达承运人进行递送时,承运人知道他们路线上的地址和名称,并且他们会检查所有这些以确保地址没有被误解。

这就是采用最先进技术的手写 OCR 水平,以及可与之进行比较的极其可控的范围。您的任务需要翻译每个字符。您没有所有可能合法出现在这些记录中的单词的主列表(除了整个语言的字典)。OCR 需要大量的清理工作,因此只需读取记录并将它们输入到 Excel 中会更快。这不是一项不寻常的任务,专业的数据输入人员可以非常快速且成本低廉地完成这项工作。