注册模型
您可以使用 Amazon CLI 或 Application Auto Scaling API 为模型添加自动扩缩。您必须首先注册模型,然后还必须定义自动扩缩策略。
使用 Amazon CLI 注册模型
使用 Amazon CLI,您可以根据预定义指标或自定义的指标来配置自动扩缩。
要注册终端节点,请使用具有以下参数的 register-scalable-target
Amazon CLI 命令:
-
--service-namespace
– 将该值设置为sagemaker
。 -
--resource-id
– 模型(特别是生产变体)的资源标识符。对于该参数,资源类型为endpoint
,唯一标识符为生产变体的名称。例如,endpoint/MyEndpoint/variant/MyVariant
。 -
--scalable-dimension
– 将该值设置为sagemaker:variant:DesiredInstanceCount
。 -
--min-capacity
– 此模型的最小实例数。将min-capacity
设置为至少 1。它必须等于或小于为max-capacity
指定的值。 -
--max-capacity
– Application Auto Scaling 应管理的最大实例数。将max-capacity
设置为至少 1。它必须等于或大于为min-capacity
指定的值。
以下示例演示如何注册名为 MyVariant
的模型,该模型动态扩展以具有一个到八个实例:
aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --resource-id endpoint/MyEndPoint/variant/MyVariant \ --scalable-dimension sagemaker:variant:DesiredInstanceCount \ --min-capacity 1 \ --max-capacity 8
使用 Application Auto Scaling API 注册模型
要定义模型的缩放限制,请向 Application Auto Scaling 注册模型。Application Auto Scaling 动态扩缩生产变体实例的数量。
要在 Application Auto Scaling 中注册模型,请使用 RegisterScalableTarget
Application Auto Scaling API 操作及以下参数:
-
ServiceNamespace
– 将该值设置为sagemaker
。 -
ResourceID
– 生产变体的资源标识符。对于该参数,资源类型为endpoint
,唯一标识符为变体的名称,例如,endpoint/MyEndPoint/variant/MyVariant
。 -
ScalableDimension
– 将该值设置为sagemaker:variant:DesiredInstanceCount
。 -
MinCapacity
– 由 Application Auto Scaling 管理的最小实例数。必须将此值设置为至少 1,并且必须等于或小于为MaxCapacity
指定的值。 -
MaxCapacity
– 由 Application Auto Scaling 管理的最大实例数。必须将此值设置为至少 1,并且必须等于或大于为MinCapacity
指定的值。
以下示例演示如何注册 SageMaker 生产变体,该变体可以动态扩展以使用 1 到 8 个实例:
POST / HTTP/1.1 Host: autoscaling.us-east-2.amazonaws.com Accept-Encoding: identity X-Amz-Target: AnyScaleFrontendService.RegisterScalableTarget X-Amz-Date: 20160506T182145Z User-Agent: aws-cli/1.10.23 Python/2.7.11 Darwin/15.4.0 botocore/1.4.8 Content-Type: application/x-amz-json-1.1 Authorization: AUTHPARAMS { "ServiceNamespace": "sagemaker", "ResourceId": "endpoint/MyEndPoint/variant/MyVariant", "ScalableDimension": "sagemaker:variant:DesiredInstanceCount", "MinCapacity": 1, "MaxCapacity": 8 }