是否有任何无缝方式可以在 NV V100/P100 中实现最佳 fp16 性能?例如,我有一个正在 fp32 中训练的模型和实现。该应用程序完美运行。现在,我想探索一下fp16的体验。有什么简单的方法可以启用此功能。
tensorflow tensorflow-gpu tensorflow-xla
tensorflow ×1
tensorflow-gpu ×1
tensorflow-xla ×1