自动扩展多容器端点

如果要使用 InvocationsPerInstance 指标为多容器端点配置自动扩展，我们建议每个容器中的模型在每次推理请求中都显示相似的 CPU 利用率和延迟。建议这样做是因为如果流向多容器端点的流量从 CPU 使用率较低的模型转向 CPU 使用率较高的模型，但总调用量保持不变，则端点不会扩展，并且可能没有足够实例来处理对 CPU 使用率较高模型的所有请求。有关自动扩展端点的信息，请参阅自动缩放 Amazon SageMaker 人工智能模型。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。