Azure OpenAI 延迟峰值(3-20 分钟!)

Nic*_*dis 6 azure azure-cognitive-services openai-api gpt-3

我们正在使用标准层的 Azure OpenAI gpt-3.5-turbo 模型对聊天机器人应用程序进行原型设计。

我们面临着随机的延迟突发,有时会持续 3 到 20 分钟。下面是门户网站提供的指标的屏幕截图。正如您所看到的,使用/速率限制并不表示高负载。

事实上,该应用程序尚未部署到生产环境中,它仅被我们的开发团队用于测试目的。了解这些延迟峰值将帮助我们证明我们的 PoC 并在生产中使用 Azure OpenAI 服务。

关于如何解决这个问题有什么想法吗?

模型属性 模型名称:gpt-35-turbo 模型版本:0301 部署类型:标准 内容过滤器:每分钟默认令牌数 速率限制(千):120 速率限制(每分钟令牌数):120000 速率限制(每分钟请求数):720

图表

潜伏: 在此输入图像描述

速率限制: 在此输入图像描述

已处理的提示标记: 在此输入图像描述