如何使用在 fp32 中训练的模型在 fp16 中进行 tensorflow 推理

xia*_*ong 5 tensorflow tensorflow-gpu tensorflow-xla

是否有任何无缝方式可以在 NV V100/P100 中实现最佳 fp16 性能?例如,我有一个正在 fp32 中训练的模型和实现。该应用程序完美运行。现在,我想探索一下fp16的体验。有什么简单的方法可以启用此功能。

7ou*_*oud 0

尝试这个方法,我发现在 Pascal 架构 GPU 上使用 fp16 进行推理速度更快,有人可以解释一下吗?