返回边界框的坐标Google的Object Detection API

Question

如何使用Google的Object Detection API的推理脚本获取生成的边界框的坐标？我知道打印框[0] [i]返回图像中第i个检测的预测但这些返回数字的含义究竟是什么？有没有办法可以得到xmin,ymin,xmax,ymax？提前致谢.

Answer 1

Google Object Detection API以[ymin,xmin,ymax,xmax]格式返回边界框,并以规范化形式返回(此处为完整说明).要找到(x,y)像素坐标,我们需要将结果乘以图像的宽度和高度.首先获取图像的宽度和高度:

width, height = image.size

然后,从boxes对象中提取ymin,xmin,ymax,xmax 并乘以得到(x,y)坐标:

ymin = boxes[0][i][0]*height
xmin = boxes[0][i][1]*width
ymax = boxes[0][i][2]*height
xmax = boxes[0][i][3]*width

最后打印方框角落的坐标:

print 'Top left'
print (xmin,ymin,)
print 'Bottom right'
print (xmax,ymax)