自动扩展多容器端点 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

自动扩展多容器端点

如果要使用 InvocationsPerInstance 指标为多容器端点配置自动扩展,我们建议每个容器中的模型在每次推理请求中都显示相似的 CPU 利用率和延迟。建议这样做是因为如果流向多容器端点的流量从 CPU 使用率较低的模型转向 CPU 使用率较高的模型,但总调用量保持不变,则端点不会扩展,并且可能没有足够实例来处理对 CPU 使用率较高模型的所有请求。有关自动扩展端点的信息,请参阅自动缩放 Amazon SageMaker 人工智能模型