小编mov*_*wig的帖子

部署在 kubernetes 上时,pytorch 模型评估速度很慢

我想通过部署在 Kubernetes 上的端点提供文本分类模型(finBERT pytorch 模型)的结果。

整个管道正在运行,但部署后处理速度非常慢(一句话需要 30 秒)。如果我在本地对同一端点进行计时,我将在 1 或 2 秒内得到结果。在本地运行docker镜像,端点也需要2秒才能返回结果。

当我在请求运行时检查 kubernetes 实例的 CPU 使用率时,它没有超过 35%,所以我不确定这是否与计算能力不足有关?

在向 pytorch 模型进行前向传递时,有人目睹过此类性能问题吗?关于我应该调查什么的任何线索?

非常感谢任何帮助,谢谢!

我目前正在使用

限制:CPU:“2”请求:CPU:“1”

Python:3.7 Pytorch:1.8.1

python kubernetes pytorch bert-language-model

4
推荐指数
1
解决办法
702
查看次数

标签 统计

bert-language-model ×1

kubernetes ×1

python ×1

pytorch ×1