Ric*_*ard 5 python tensorflow tensorflow-serving
我无法在文档中找到有关如何在 TensorFlow Serving 中保存和加载模型以及在 CPU 与 GPU 上运行时可能存在的差异的特定信息。
为了提供多个模型(以及每个模型的一个或多个版本),一个通用的工作流程是:
我目前正在 CPU 上运行推理并同时加载许多模型,这比预期的更快地消耗 RAM。保存的模型在磁盘上相对较小,但是当 TF Serving 将模型加载到内存中时,它几乎大了一个数量级。磁盘上单个200MB 的saved_model 变成RAM 中的1.5GB,极大地限制了可以加载的模型数量。
归档时间: |
|
查看次数: |
3210 次 |
最近记录: |