我正在制作大量患者入院调查问卷。这是调查问卷的扫描示例。我需要处理它们并将其存储到数据库中,但是在检测这些手写标记时遇到了问题:
\n\n患者入院问卷
\n\n
问卷中有不同类型的标记。有些复选框被漆成黑色。有些复选框带有勾号或十字标记。这些标记都意味着复选框已被选中。我需要使用 opencv2 来识别选中了哪些框。
\n\n我尝试过光学字符识别,但结果并没有真正的帮助。标记的形状太多,因此 OCR 将它们识别为不同的字符。我需要弄清楚调查问卷中勾选了哪些框。cv2 本来可以解决这个问题,但我不知道。
\n\n# Expected input: An image of Questionnaire\n\n# Expected output:\nHave you seen other health care providers for your problems of dizziness \nand/or imbalance? [selected] Yes [unselected] No\n\nHave you been through a program of Vestibular and Balance Rehabilitation \nTherapy? [selected] Yes [unselected] No\n\n=============================\n[unselected] vertigo\n[unselected] falling\n...\n[selected] Drunk-like\n\n=============================\n[selected] Vertigo\n[selected] Falling\n[selected] Fatigue\n[selected] Wooziness\n[selected] Spinning\n[unselected] Disconnected\n\nRun Code Online (Sandbox Code Playgroud)\n\n我之前尝试使用 Python tesseract OCR 包:
\n\n# Expected input: An image of Questionnaire\n\n# Expected output:\nHave …Run Code Online (Sandbox Code Playgroud)