有没有办法完成类似于iTunes和App Store应用程序使用设备相机兑换礼品卡时所做的事情,在实时相机提要上实时识别短字符串?

我知道在iOS 7中,现在有一个AVMetadataMachineReadableCodeObject类AFAIK,它只代表条形码.我更感兴趣的是检测和读取短字符串的内容.是否可以使用公开的API方法或您可能知道的其他第三方SDK?
还有一个过程中的视频:
https://www.youtube.com/watch?v=c7swRRLlYEo
最好,
小智 15
我正在开发一个类似Apple应用程序商店的项目,如你所提到的那样用相机兑换.
处理实时视频的一个很好的起点是我在GitHub上找到的一个项目.这是使用AVFoundation框架并实现AVCaptureVideoDataOutputSampleBufferDelegate方法.
获得图像流(视频)后,您可以使用OpenCV处理视频.在通过Tesseract运行之前,您需要确定要OCR的图像区域.您必须使用过滤,但您使用OpenCV采取的主要步骤是:
其他一些提示:
这个Q&A线程似乎一直是iOS上OCR主题的热门搜索热门之一,但是已经过时了,所以我想我会发布一些额外的资源,这些资源可能对我发现写这篇文章的时间:
视觉框架
https://developer.apple.com/documentation/vision
作为iOS的11,你现在可以使用,例如,矩形或文本检测附带的基于CoreML-Vision的框架.我发现我不再需要将OpenCV与操作系统中包含的这些功能结合使用.但请注意,文本检测与文本识别或OCR不同,因此您仍需要另一个库(如Tesseract(或可能是您自己的CoreML模型))将检测到的图像部分转换为实际文本.
SwiftOCR
https://github.com/garnele007/SwiftOCR
如果您只是对识别字母数字代码感兴趣,那么这个OCR库声称速度快,内存消耗和Tesseract的准确度都有所提高(我自己没试过).
ML套件
https://firebase.google.com/products/ml-kit/
谷歌已经发布了ML套件作为其开发工具套件火力地堡的一部分,处于测试阶段,在写这篇文章的时间.与Apple的CoreML类似,它是一个机器学习框架,可以使用您自己训练的模型,但也有预先训练的模型,用于常见的图像处理任务,如Vision Framework.与 Vision Framework 不同,它还包括用于拉丁字符的设备上文本识别的模型.目前,此库的使用对于设备上的功能是免费的,收取使用来自Google的云/ SAAS API产品的费用.我选择在我的项目中使用它,因为识别的速度和准确性似乎相当不错,我也将创建一个具有相同功能的Android应用程序,因此拥有一个单一的跨平台解决方案对我来说是理想的选择.
ABBYY实时识别SDK
https://rtrsdk.com/
此iOS和Android商业SDK可免费下载,用于评估和有限的商业用途(截至撰写本文时,最多可达5000个单位).进一步的商业用途需要扩展许可.由于定价不透明,我没有对此次发行进行评估.
“实时”只是一组图像。您甚至不需要考虑处理所有这些,只需足以广泛地表示设备的运动(或相机位置的变化)即可。iOS SDK 中没有内置任何内容来执行您想要的操作,但您可以使用第 3 方 OCR 库(如 Tesseract)来处理从相机抓取的图像。
| 归档时间: |
|
| 查看次数: |
20488 次 |
| 最近记录: |