Vertex AI 预测 - 自动缩放无法将最小节点设置为 0

Question

Vertex AI 预测 - 自动缩放无法将最小节点设置为 0

rac*_*erX 10 google-cloud-platform google-ai-platform google-cloud-vertex-ai

我不清楚 Vertex AI 模型预测的定价。在文档中，在标题“更多关于预测节点的自动缩放”下提到的要点之一是：

“如果您选择自动缩放，节点数量会自动缩放，并且可以在无流量持续时间内缩小到零”

稍后文档中提供的示例似乎也表明在没有流量的时期，使用零个节点。但是，当我在 Vertex AI 中创建端点时，在“自动缩放”标题下显示：

“自动缩放：如果设置最小值和最大值，计算节点将进行缩放以满足这些边界内的流量需求”

“最小计算节点数”下的值不允许为 0，因此必须输入 1 或更大，并且提到：

默认值为 1。如果设置为 1 或更多，则即使没有流量需求，计算资源也会持续运行。这可能会增加成本，但可以避免由于节点初始化而导致请求丢失。

我的问题是，当我通过将最小值设置为 1、最大值设置为 10 来选择自动缩放时，会发生什么情况。1 个节点是否始终连续运行？或者按照文档的建议，在没有流量的情况下它会缩小到 0 个节点。

为了测试，我部署了一个具有自动缩放功能的端点（最小值和最大值设置为 1），然后当我发送预测请求时，响应几乎是立即的，表明节点已经启动。大约一个小时后，我再次这样做，再次立即得到响应，表明该节点可能永远不会关闭。另外，对于高延迟要求，是否可以自动缩放到 0 个节点（如果这确实可能，甚至是实用的），即，从 0 个节点启动时我们可以期望多少延迟？

Answer 1

Don*_*ndi 5

您使用的是 N1 还是非 N1 机器类型？如果要自动缩放为零，则必须使用非 N1 机器。请参阅节点分配的第二个注释：

注意：使用 Compute Engine (N1) 机器类型的版本无法缩减至零个节点。它们至少可以缩小到 1 个节点。

更新：AI Platform 支持缩放到零，而 Vertex AI 目前不支持。从扩展文档来看，节点可以扩展，但没有提到它可以缩小到零。这是针对想要跟踪此问题的人员的公共功能请求。

关于延迟要求，实际输出会有所不同。然而，根据文档需要注意的一件事是，该服务可能无法足够快地使节点上线以跟上请求流量的大幅增长。如果您的流量经常出现陡峭的峰值，并且可靠的低延迟对您的应用程序很重要，那么您可能需要考虑手动扩展。

其他参考：https ://cloud.google.com/ai-platform/prediction/docs/machine-types-online-prediction#automatic_scaling

谢谢，根据此文档，https://cloud.google.com/vertex-ai/docs/predictions/configure-compute#machine_type_comparison，似乎唯一的“N1”机器类型可用于 Vertex AI 中的预测，因此可扩展Vertex AI 中不可能降到 0？我还尝试从云控制台创建端点，唯一可用的选项是 N1 机器类型。 (2认同)

归档时间：	4 年，2 月前
查看次数：	2639 次
最近记录：	4 年前