我正在尝试确定从扫描文档中提取手写数据的最佳方法.
手写数据位于特定的盒装区域.我生成了文档的数字版本,因此我知道盒装区域的两个坐标,如果需要,还可以生成文档的其他变体(即,为了使字段更容易提取而被屏蔽的版本)
我不能仅使用文档生成中的坐标来提取字段的原因是在扫描过程中发生了移位/缩放/透视修改,这可以不同地推/拉每个单独框的坐标(扫描的文档确实有用于对齐的角标记,但是通常会发生非预期的变换.
我认为高级别有两种方法可以解决这个问题:逐步完成页面上每个框的坐标,并试图用一些技术/算法"纠正"它们,或者将完成的表格与空白表格进行比较(掩盖?并尝试以这种方式提取正确的字段.
调整这些修改并准确提取包含手写区域的最有效技术/算法是什么?还有其他选择吗?
以下查询需要FOREVER执行(Macbook上的30多小时w/4gig ram) - 我正在寻找使其更有效运行的方法.任何想法都表示赞赏!
CREATE TABLE fc AS
SELECT threadid,
title,
body,
date,
userlogin
FROM f
WHERE pid
NOT IN (SELECT pid FROM ft) ORDER BY date;
Run Code Online (Sandbox Code Playgroud)
(表"f"是~1 Gig/1,843,000行,表"ft"是168mb,216,000行))