Vertex AI 预测 - 自动缩放无法将最小节点设置为 0

rac*_*erX 10 google-cloud-platform google-ai-platform google-cloud-vertex-ai

我不清楚 Vertex AI 模型预测的定价。在文档中,在标题“更多关于预测节点的自动缩放”下提到的要点之一是:

“如果您选择自动缩放,节点数量会自动缩放,并且可以在无流量持续时间内缩小到零”

稍后文档中提供的示例似乎也表明在没有流量的时期,使用零个节点。但是,当我在 Vertex AI 中创建端点时,在“自动缩放”标题下显示:

“自动缩放:如果设置最小值和最大值,计算节点将进行缩放以满足这些边界内的流量需求”

“最小计算节点数”下的值不允许为 0,因此必须输入 1 或更大,并且提到:

默认值为 1。如果设置为 1 或更多,则即使没有流量需求,计算资源也会持续运行。这可能会增加成本,但可以避免由于节点初始化而导致请求丢失。

我的问题是,当我通过将最小值设置为 1、最大值设置为 10 来选择自动缩放时,会发生什么情况。1 个节点是否始终连续运行?或者按照文档的建议,在没有流量的情况下它会缩小到 0 个节点。

为了测试,我部署了一个具有自动缩放功能的端点(最小值和最大值设置为 1),然后当我发送预测请求时,响应几乎是立即的,表明节点已经启动。大约一个小时后,我再次这样做,再次立即得到响应,表明该节点可能永远不会关闭。另外,对于高延迟要求,是否可以自动缩放到 0 个节点(如果这确实可能,甚至是实用的),即,从 0 个节点启动时我们可以期望多少延迟?

Don*_*ndi 5

您使用的是 N1 还是非 N1 机器类型?如果要自动缩放为零,则必须使用非 N1 机器。请参阅节点分配的第二个注释:

注意:使用 Compute Engine (N1) 机器类型的版本无法缩减至零个节点。它们至少可以缩小到 1 个节点。

更新:AI Platform 支持缩放到零,而 Vertex AI 目前不支持。从扩展文档来看,节点可以扩展,但没有提到它可以缩小到零。这是针对想要跟踪此问题的人员的公共功能请求。

关于延迟要求,实际输出会有所不同。然而,根据文档需要注意的一件事是,该服务可能无法足够快地使节点上线以跟上请求流量的大幅增长。如果您的流量经常出现陡峭的峰值,并且可靠的低延迟对您的应用程序很重要,那么您可能需要考虑手动扩展。

其他参考:https ://cloud.google.com/ai-platform/prediction/docs/machine-types-online-prediction#automatic_scaling

  • 谢谢,根据此文档,https://cloud.google.com/vertex-ai/docs/predictions/configure-compute#machine_type_comparison,似乎唯一的“N1”机器类型可用于 Vertex AI 中的预测,因此可扩展Vertex AI 中不可能降到 0?我还尝试从云控制台创建端点,唯一可用的选项是 N1 机器类型。 (2认同)