如何制定一个程序,以尽量减少手写调查的人类转录错误

Ale*_* S. 10 algorithm statistics user-interface survey

我需要开发自定义软件来进行调查.问题可能有多种选择,或者在极少数情况下可以是自由文本.

我被要求设计一个子系统来检查多个选择部分的手动数据条目是否有任何错误.我们正在努力加快用户数据输入流程,并尽量减少数字表格和原始问卷之间的人为输入差异.调查由人工访问者填写手写标记和文本,因此可能会发现难以阅读的标记,或者用户可能会在某些问题中意外选择不同的值,我们希望避免这种情况.

该软件必须包含一些自动控制,以检测可能的键入差异.多项选择题的每个答案具有相同的被选择概率.

这个问题有两个部分:

  • GUI.

我想到的最简单的事情是实现问题显示的最有用的设计:使用大而可读的字体和空间慷慨的选择.还有别的吗?为了更快的输入,我想使用下拉列表(偏向键盘而不是鼠标).鉴于问题按部分分组,我想显示为该部分的问题选择的答案,但这可能会减慢这一过程.还有其他想法吗?

  • 错误检查子系统.

我还可以做些什么来最小化或检查多项选择题中的人为拼写错误?这是一个可以解决的问题吗?是否有一些统计方法来检查用户输入的值是否与手工填写的表格相同?例如,我们假设调查有5个问题,每个问题有4个选项.假设我有n个调查表,由访调员填写论文,他们已准备好输入软件,然后如何最大限度地减少可能有n次调查的手动转录的意外差异,而无需仔细检查所有内容n次调查的5个问题?

我的第一个建议是,在处理所有手工填写表格的最后,软件可以随机选择一些表格,在几个实例中对答复进行双重检查,但我可以根据什么标准进行选择?这种验证足以涵盖所有内容吗?

实际调查是国家层面的,共有56页,总共有200多个问题,所以很多人都会写很多手写页面,目的是减少错误的可能性并优化数据输入的速度处理.考虑到采访笔记本电脑或掌上电脑的复杂性,调查必须首先填写.

Mat*_*ker 13

叫我老派,但我仍然认为最实用的方法是使用双重输入.两名数据录入员进入他们的调查,然后交换堆栈并输入其他职员的调查.每当你的系统检测到两者之间的差异时,它会抛出一个标志 - 然后两个职员将他们的头放在一起并决定正确的答案(或者可能由更高级的研究人员审查等).结合这里的一些其他建议(我很喜欢mdma对GUI的建议),这将构成一个低错误系统.

是的,这会使你的数据输入时间翻倍(也许) - 但它很简单,并且会减少你的错误方式.OMR的想法很棒,但对我来说听起来并不像这个项目(一项全国性的,52页的调查)是一个孤独的黑客第一次尝试实施这个项目的最佳案例.你需要什么软件?有什么硬件可以做到这一点?在识别愚蠢的东西时仍然会有很多人工工作,其中面试官标记所有四个可能的答案,然后在旁边写一个笔记 - 你可能想要随机抽样调查以了解机器的内容 - 读错误率是.即使这样,您仍然只能估计错误率,而不是更正数据.

尝试一种更简单的方法来为您的雇主提供此次质量结果 - 然后将这些结果用作预先验证的数据集,以便下次尝试OMR内容.


mdm*_*dma 6

OCR/OMR可能是最好的选择,因为您排除了不可预测的人为错误并将其替换为可预测的机器错误.甚至可以过滤掉OCR可能会遇到的形式并对其进行修改以提高扫描精度.

但是,解决原始问题:

错误检查

  • 有问题相关,所以基本上同样的事情被问了不止一次,或者再次被问到否定.如果相关问题的答案也不相关,那么这可能是输入错误的指示.
  • 偏离规范:如果典型响应中存在模式,那么与这些典型响应的偏差可被视为潜在的输入错误.例如,如果问题2和3回答A,则问题可能是C或D.这是上述相关性的推广.可以基于已输入的数据动态地计算相关性.

GUI

  • 让GUI模仿纸质表格,以便入门职员在纸上看到的内容反映在屏幕上.在GUI中输入错误问题的纸质问题响应的可能性较小.
  • 为数据录入员提供视觉辅助,例如使用滑块将当前问题位置保存在纸上.
  • 用于输入数据的自定义输入设备可以比键盘导航和列表框更容易使用.例如,带有所有选项的触摸显示器拼写出ABC D.职员只需要选择一个选项,然后选择它并显示下一个问题 - 在短暂停顿后.如果职员出错,他们可以使用每个问题旁边的上一个/下一个按钮.
  • 提供输入数据的音频反馈,因此当职员输入"A"时,他们会听到"A".

编辑:如果您考虑执行双重数据输入或实施改进的GUI,则可能值得进行试验计划以评估各种方法的有效性.双重进入可能是昂贵的(数据输入任务的成本加倍) - 这可能会或可能不会通过准确性的提高来证明.试点计划将允许您快速且相对便宜地评估双重进入的有效性.它还可以让您了解单个数据输入员的错误级别,而无需任何UI更改,这有助于确定是否需要UI更改或其他减少错误的策略以及实现这些策略需要多少成本.

相关链接


Dea*_*ing 5

我的第一个建议是,在处理所有手工填写表格的最后,软件可以随机选择一些表格,以便在少数情况下对答复进行双重检查

我认为这实际上不会产生有意义的结果.据推测,错误是无意和随机的.随机检查会发现系统性错误,但如果你仔细检查10%的表格,你只会发现10%的随机错误(如果检查20%的表格,则会发现20%的错误等).

论文调查结果如何?如果可能的话,我猜想一个OCR系统扫描手写测试并比较OCR检测到答案与数据输入操作员给出的内容将是一个更好的解决方案.您可能仍然会手动仔细检查相当数量的调查,但您可以放心,您仔细检查的调查比您随机挑选出的错误更容易出错.

如果您还控制纸张调查的样子,那就更好了:您可以专门设计它们,以便尽可能准确地制作OCR.