使用控制台配置模型auto 扩展 - 亚马逊 SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用控制台配置模型auto 扩展

使用控制台为模型配置auto 缩放
  1. 通过 https://console.aws.amazon.com/sagemaker/ 打开亚马逊 SageMaker 控制台。

  2. 在导航窗格中,打开 Infreence 并选择 Endpoin t s。

  3. 选择要配置的终端节点。

  4. 对于 Endpoint runtime settings (终端节点运行时设置),选择您要配置的模型。

  5. 对于 Endpoint runtime settings (终端节点运行时设置),选择 Configure auto scaling (配置自动扩展)。

    此时将显示 Configure variant automatic scaling (配置变体自动扩展) 页面。

  6. 对于 Minimum capacity (最小容量),键入您希望扩展策略维护的最小实例数。至少需要 1 个实例。

  7. 对于 Maximum capacity (最大容量),键入您希望扩展策略维护的最大实例数。

  8. 对于 target value (目标值),键入模型每分钟每个实例的平均调用次数。要确定该值,请按照负载测试中的准则进行操作。

    Application Auto Scaling 将添加或删除实例,以便使指标接近于您指定的值。

  9. 对于 Scale-in cool down (seconds) (缩减冷却 (秒)) 和 Scale-out cool down (seconds) (扩展冷却 (秒)),键入每个冷却时间的秒数。假设列表中的顺序是基于最重要的到最不重要的,或第一个应用的到最后一个应用的。

  10. 如果您想确保扩展变体以应对流量增加,但又不关心在流量减少时移除实例以降低成本,请选择停用扩展策略删除变体实例,请选择停用扩展策略来防止扩展策略删除变体实例。

    扩展活动始终处于激活状态,以便扩展策略可以根据需要创建终端节点实例。

  11. 选择保存

此过程将模型注册为Application Auto Scaling。注册模型时,Application Auto Scaling 会执行验证检查以确保满足以下条件:

  • 该模型存在

  • 权限足够

  • 您没有注册具有可突增性能实例 (如 T2) 的变体。

    注意

    SageMaker 不支持对 T2 等突发实例进行auto 扩展,因为它们已经允许在工作负载增加的情况下增加容量。有关可突增性能实例的信息,请参阅 Amazon EC2 实例类型