本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
自动扩展多容器端点
如果要使用 InvocationsPerInstance
指标为多容器端点配置自动扩展,我们建议每个容器中的模型在每次推理请求中都显示相似的 CPU 利用率和延迟。建议这样做是因为如果流向多容器端点的流量从 CPU 使用率较低的模型转向 CPU 使用率较高的模型,但总调用量保持不变,则端点不会扩展,并且可能没有足够实例来处理对 CPU 使用率较高模型的所有请求。有关自动扩展端点的信息,请参阅自动缩放 Amazon SageMaker 人工智能模型。