ran*_*213 2 computer-vision neural-network deep-learning keras imagenet
我已经使用VGG作为图像分类模型实现了图像字幕.我已经了解到YOLO是一种快速图像分类和检测模型,它主要用于多个物体检测.但是对于图像字幕,我只想让类不是边界框.
我完全赞同Parag S. Chandakkar在回答中提到的内容.与VGG-16和其他对象分类网络相比,如果仅用于分类,YOLO和RCNN两种最常用的对象检测模型是慢的.但是为了支持YOLO,我要提一下,你可以为图像字幕和图像对象检测创建一个模型.
调整YOLO以生成数据集支持的类数,即使YOLO生成49*(数据集中的类数)+ 98 + 392的向量.
使用此向量生成"边界"框.
总而言之,您可以先生成边界框,然后再调整该向量以生成标题.