无论如何,YOLO的表现与VGG-16不同.将它用于图像分类而不是VGG是否有意义？

Question

我已经使用VGG作为图像分类模型实现了图像字幕.我已经了解到YOLO是一种快速图像分类和检测模型,它主要用于多个物体检测.但是对于图像字幕,我只想让类不是边界框.

Answer 1

我完全赞同Parag S. Chandakkar在回答中提到的内容.与VGG-16和其他对象分类网络相比,如果仅用于分类,YOLO和RCNN两种最常用的对象检测模型是慢的.但是为了支持YOLO,我要提一下,你可以为图像字幕和图像对象检测创建一个模型.

YOLO生成长度为1470的向量.

总而言之,您可以先生成边界框,然后再调整该向量以生成标题.