Azure OpenAI 延迟峰值（3-20 分钟！）

Nic*_*dis 6 azure azure-cognitive-services openai-api gpt-3

我们正在使用标准层的 Azure OpenAI gpt-3.5-turbo 模型对聊天机器人应用程序进行原型设计。

我们面临着随机的延迟突发，有时会持续 3 到 20 分钟。下面是门户网站提供的指标的屏幕截图。正如您所看到的，使用/速率限制并不表示高负载。

事实上，该应用程序尚未部署到生产环境中，它仅被我们的开发团队用于测试目的。了解这些延迟峰值将帮助我们证明我们的 PoC 并在生产中使用 Azure OpenAI 服务。

关于如何解决这个问题有什么想法吗？

模型属性 模型名称：gpt-35-turbo 模型版本：0301 部署类型：标准内容过滤器：每分钟默认令牌数速率限制（千）：120 速率限制（每分钟令牌数）：120000 速率限制（每分钟请求数）：720

图表

潜伏：

速率限制：

已处理的提示标记：

归档时间：	2 年，10 月前
查看次数：	663 次
最近记录：	2 年，10 月前

Azure 应用程序网关在进行 JMeter 负载测试时随机遇到 504 网关超时 7

项目中的多个 Azure App Function 6

.NET 5.0 Webjob 不再从独立构建开始 6

Azure 中虚拟机和应用服务之间的 Vnet 5

ARM模板部署Microsoft.Web/sites/hostNameBindings资源使用copy 4

在查询中使用本地时间 4

如何使用邮递员将图像上传到 azure blob 存储 3

如何为Azure Function应用v2.0设置无限超时 3

在 Azure Devops 中，有没有办法从单个构建定义的多个存储库中获取源代码？ 3

SharePoint 在线 OAuth2 令牌 invalid_scope 3

如何丢弃Git中的未分级更改？ 4562

适用于Android UserManager.isUserAGoat()的用例？ 3506

O(log n)究竟意味着什么？ 2021

什么是反思,为什么它有用？ 2011

在JavaScript中定义枚举的首选语法是什么？ 1982

什么是尾递归？ 1602

在Node.js中编写文件 1538

在React JSX中循环 1131

Visual Studio中的构建解决方案,重建解决方案和清洁解决方案之间的区别？ 1081

自我的目的是什么？ 1061