令我惊讶的是,增加批处理大小并不会提高GPU的总处理速度。我的测量:
我的期望是,由于GPU上的并行化,该步骤的时间将(几乎)保持不变。但是,它几乎与批量大小成线性比例关系。为什么?我误会了吗?
我正在使用Tensorflow Object Detection API,重新训练了预先训练的fast_rcnn_resnet101_coco模型,预定义的batch_size为1,我们的GPU(Nvidia 1080 Ti)最多可以处理4张图像,因此我想利用它来加快训练速度。
object-detection tensorflow
object-detection ×1
tensorflow ×1