为什么 GCP Vision API 在 Python 中返回的结果比在其在线演示中更差

Question

为什么 GCP Vision API 在 Python 中返回的结果比在其在线演示中更差

Poe*_*dit 4 python ocr google-cloud-vision

我编写了一个基本的 Python 脚本来调用和使用 GCP Vision API。我的目标是向它发送产品图像并检索（使用 OCR）写在这个盒子上的文字。我有一个预定义的品牌列表，因此我可以在从 API 返回的文本中搜索品牌并检测它是什么。

我的python脚本如下：

import  io
from google.cloud import vision
from google.cloud.vision import types
import os
import cv2
import numpy as np

os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "**************************"


def detect_text(file):
    """Detects text in the file."""
    client = vision.ImageAnnotatorClient()

    with io.open(file, 'rb') as image_file:
        content = image_file.read()

    image = types.Image(content=content)

    response = client.text_detection(image=image)
    texts = response.text_annotations
    print('Texts:')

    for text in texts:
        print('\n"{}"'.format(text.description))

        vertices = (['({},{})'.format(vertex.x, vertex.y)
                    for vertex in text.bounding_poly.vertices])

        print('bounds: {}'.format(','.join(vertices)))


file_name = "Image.jpg"
img = cv2.imread(file_name)

detect_text(file_name)

Run Code Online (Sandbox Code Playgroud)

目前，我正在试验以下产品图片： (951?×?335 分辨率)

它的品牌是Acuvue。

问题如下。当我测试 GCP Cloud Vision API 的在线演示时，我得到了此图像的以下文本结果：

FOR ASTIGMATISM 1-DAY ACUVUE MOIST WITH LACREON™ 30 Lenses BRAND CONTACT LENSES UV BLOCKING

Run Code Online (Sandbox Code Playgroud)

（此 json 结果返回上述所有单词，包括Acuvue对我而言重要的单词，但 json 太长，无法在此处发布）

因此，在线演示可以很好地检测产品上的文字，至少它可以准确地检测到单词Acuvue（即品牌）。但是，当我使用相同的图像在我的 python 脚本中调用相同的 API 时，我得到以下结果：

Texts:

"1.DAY
FOR ASTIGMATISM
WITH
LACREONTM
MOIS
30 Lenses
BRAND CONTACT LENSES
UV BLOCKING
"
bounds: (221,101),(887,101),(887,284),(221,284)

"1.DAY"
bounds: (221,101),(312,101),(312,125),(221,125)

"FOR"
bounds: (622,107),(657,107),(657,119),(622,119)

"ASTIGMATISM"
bounds: (664,107),(788,107),(788,119),(664,119)

"WITH"
bounds: (614,136),(647,136),(647,145),(614,145)

"LACREONTM"
bounds: (600,151),(711,146),(712,161),(601,166)

"MOIS"
bounds: (378,162),(525,153),(528,200),(381,209)

"30"
bounds: (614,177),(629,178),(629,188),(614,187)

"Lenses"
bounds: (634,178),(677,180),(677,189),(634,187)

"BRAND"
bounds: (361,210),(418,210),(418,218),(361,218)

"CONTACT"
bounds: (427,209),(505,209),(505,218),(427,218)

"LENSES"
bounds: (514,209),(576,209),(576,218),(514,218)

"UV"
bounds: (805,274),(823,274),(823,284),(805,284)

"BLOCKING"
bounds: (827,276),(887,276),(887,284),(827,284)

Run Code Online (Sandbox Code Playgroud)

但这并没有像演示那样检测到“Acuvue”这个词！！

为什么会这样？

我可以修复我的 python 脚本中的某些内容以使其正常工作吗？

Answer 1

jed*_*rds 7

从文档：

Vision API 可以检测和提取图像中的文本。有两种支持 OCR 的注释功能：

TEXT_DETECTION 从任何图像中检测并提取文本。例如，一张照片可能包含一个街道标志或交通标志。JSON 包括整个提取的字符串，以及单个单词及其边界框。

DOCUMENT_TEXT_DETECTION 还从图像中提取文本，但响应针对密集文本和文档进行了优化。JSON 包括页面、块、段落、单词和中断信息。）

我希望 Web API 实际使用的是后者，然后根据置信度过滤结果。

DOCUMENT_TEXT_DETECTION 响应包括其他布局信息，例如页面、块、段落、单词和中断信息，以及每个的置信度分数。

无论如何，我希望（并且我的经验是）后一种方法会“更努力地”找到所有字符串。

我认为你没有做任何“错误”的事情。只有两种并行检测方法。一个 (DOCUMENT_TEXT_DETECTION) 更密集，针对文档进行了优化（可能用于拉直、对齐和均匀间隔的线条），并提供更多信息，这些信息对于某些应用程序可能是不必要的。

因此，我建议您按照此处的 Python示例修改您的代码。

最后，我的猜测是，\342\204\242您询问的是与 utf-8 字符相对应的转义八进制值，它认为在尝试识别 ™ 符号时找到了它。

如果您使用以下代码段：

b = b"\342\204\242"
s = b.decode('utf8')
print(s)

Run Code Online (Sandbox Code Playgroud)

您会很高兴看到它打印 ™。

归档时间：	7 年，8 月前
查看次数：	831 次
最近记录：	7 年，8 月前