小编mov*_*wig的帖子

我想通过部署在 Kubernetes 上的端点提供文本分类模型（finBERT pytorch 模型）的结果。

整个管道正在运行，但部署后处理速度非常慢（一句话需要 30 秒）。如果我在本地对同一端点进行计时，我将在 1 或 2 秒内得到结果。在本地运行docker镜像，端点也需要2秒才能返回结果。

当我在请求运行时检查 kubernetes 实例的 CPU 使用率时，它没有超过 35%，所以我不确定这是否与计算能力不足有关？

在向 pytorch 模型进行前向传递时，有人目睹过此类性能问题吗？关于我应该调查什么的任何线索？

非常感谢任何帮助，谢谢！

我目前正在使用

限制：CPU：“2”请求：CPU：“1”

Python：3.7 Pytorch：1.8.1

4
推荐指数

1
解决办法

702
查看次数

小编mov_wig的帖子