用于检测图像中文本的 aws sagemaker

Question

我知道最好使用 aws Rekognition 来实现此目的。然而，当我用我拥有的图像（有点像带有标签的小容器）尝试它时，它似乎效果不佳。文本拼写错误且支离破碎。

我是 ML 和 sagemaker 的新手。据我所知，用例似乎是用于预测和图像分类。我找不到关于训练用于检测图像中文本的模型的内容。可以用 Sagemaker 来做吗？如果有人指出我正确的方向，我将不胜感激。

Answer 1

不同的服务都将为光学字符识别 (OCR) 提供不同的抽象级别，具体取决于您最喜欢使用管道的哪些部分以及您更喜欢抽象的内容。

以下是一些选项：

Rekognition将通过DetectText功能提供开箱即用的 OCR 。但是，在当前情况下，您似乎需要对图像执行某种预处理才能获得更好的结果。这可以通过您选择的任何方法（Lambda、EC2 等）来完成。
SageMaker是一款工具，可让您轻松训练和部署您自己的模型（任何类型）。SageMaker 有两个主要选项：
1. DIY 选项：如果您希望标记自己的数据、收集大量训练集并训练自己的 OCR 模型，可以通过 SageMaker 训练和部署自己的模型来实现这一点。
2. 现有 OCR 算法：有许多算法，它们对于 OCR 都有不同的潜在权衡。一个例子是Tesseract。使用它，您可以将预处理步骤与文本检测更紧密地结合起来。
Amazon Textract（预览版）是一项专门构建的专用 OCR 服务，可以根据您的图像外观和您选择的设置提供更好的性能。

我个人建议先研究一下OCR 预处理，看看它是否可以提高 Rekognition 的准确性，然后再转向其他选项。即使它没有提高 Rekognition 的准确性，它对于大多数其他选项仍然很有价值！