使用控制台配置模型自动扩缩 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

使用控制台配置模型自动扩缩

使用控制台为模型配置自动扩缩
  1. 通过 https://console.aws.amazon.com/sagemaker/ 打开 Amazon SageMaker 控制台。

  2. 在导航窗格中,打开“推理”并选择端点

  3. 选择要配置的终端节点。

  4. 对于 Endpoint runtime settings (终端节点运行时设置),选择您要配置的模型。

  5. 对于 Endpoint runtime settings (终端节点运行时设置),选择 Configure auto scaling (配置自动扩展)。

    此时将显示 Configure variant automatic scaling (配置变体自动扩展) 页面。

  6. 对于 Minimum capacity (最小容量),键入您希望扩展策略维护的最小实例数。至少需要 1 个实例。

  7. 对于 Maximum capacity (最大容量),键入您希望扩展策略维护的最大实例数。

  8. 对于 target value (目标值),键入模型每分钟每个实例的平均调用次数。要确定该值,请按照负载测试中的准则进行操作。

    Application Auto Scaling 添加或移除实例,以使指标接近您指定的值。

  9. 对于 Scale-in cool down (seconds) (缩减冷却 (秒)) 和 Scale-out cool down (seconds) (扩展冷却 (秒)),键入每个冷却时间的秒数。假设列表中的顺序是基于最重要的到最不重要的,或第一个应用的到最后一个应用的。

  10. 如果您想确保变体横向扩展以解决增加的流量,但不太看重在流量减少时移除实例以降低成本,请选择禁用横向缩减以停用横向缩减活动,防止扩展策略删除变体实例。

    横向扩展活动始终处于激活状态,以便扩展策略可以根据需要创建端点实例。

  11. 选择保存

此过程使用 Application Auto Scaling 将模型注册为可扩展目标。当您注册模型时,Application Auto Scaling 执行验证检查以确保以下内容:

  • 该模型存在

  • 权限足够

  • 您没有注册具有可突增性能实例 (如 T2) 的变体。

    注意

    SageMaker 不支持可突增实例(如 T2)的自动扩缩,因为它们已经允许在工作负载增长时增加容量。有关可突增性能实例的信息,请参阅 Amazon EC2 实例类型