无论如何,YOLO的表现与VGG-16不同.将它用于图像分类而不是VGG是否有意义?

ran*_*213 2 computer-vision neural-network deep-learning keras imagenet

我已经使用VGG作为图像分类模型实现了图像字幕.我已经了解到YOLO是一种快速图像分类和检测模型,它主要用于多个物体检测.但是对于图像字幕,我只想让类不是边界框.

Shi*_*gal 6

我完全赞同Parag S. Chandakkar在回答中提到的内容.与VGG-16和其他对象分类网络相比,如果仅用于分类,YOLO和RCNN两种最常用的对象检测模型是慢的.但是为了支持YOLO,我要提一下,你可以为图像字幕和图像对象检测创建一个模型.

YOLO生成长度为1470的向量. 在此输入图像描述

  • 调整YOLO以生成数据集支持的类数,即使YOLO生成49*(数据集中的类数)+ 98 + 392的向量.

  • 使用此向量生成"边界"框.

  • 进一步调整该向量以生成大小等于类数的向量.您可以使用密集层.
  • 将此向量传递给您的语言模型以生成标题.

总而言之,您可以先生成边界框,然后再调整该向量以生成标题.