如何使用在 fp32 中训练的模型在 fp16 中进行 tensorflow 推理

Question

是否有任何无缝方式可以在 NV V100/P100 中实现最佳 fp16 性能？例如，我有一个正在 fp32 中训练的模型和实现。该应用程序完美运行。现在，我想探索一下fp16的体验。有什么简单的方法可以启用此功能。

Answer 1

尝试这个方法，我发现在 Pascal 架构 GPU 上使用 fp16 进行推理速度更快，有人可以解释一下吗？