Dav*_*ghi 14 ocr text-recognition google-cloud-platform google-cloud-vision
我有一个项目,它使用Google Vision API DOCUMENT_TEXT_DETECTION来从文档图像中提取文本.
通常,API在识别单个数字时会遇到麻烦,如下图所示:
我想这个问题可能与某些噪声消除算法有关,它将孤立的单个数字识别为噪声.有没有办法在这些情况下改善视力反应?(例如管理噪声阈值或其他参数)
在其他时候,Vision会将数字与字母混淆:
但如果我指定为参数languageHints ='en'或'mt',则ocr会忽略这些数字.有没有办法强制识别数字或拉丁字符?
不幸的是,我认为 Vision API 针对频谱的两端进行了优化——DOCUMENT_TEXT_DETECTION一端是密集文本 ( ),TEXT_DETECTION另一端是任意文本位 ( )。正如您在评论中指出的那样,常规方法TEXT_DETECTION对于这些零散的个位数效果更好,而DOCUMENT_TEXT_DETECTION总体效果更好。
据我所知,目前还没有计划尝试以单一方式涵盖这两个方面,但将来可能会有所改善。
我认为还有其他请求要求对您要检测的内容进行更多微调和暗示(例如,此处和此处),但这似乎尚不可用。也许将来您将能够提供有关您要在图像中查找的文本格式的更多提示(例如,电话号码、个位数等)。
| 归档时间: |
|
| 查看次数: |
1250 次 |
| 最近记录: |