使用控制台配置模型自动扩展 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用控制台配置模型自动扩展

使用控制台为模型配置自动扩展

  1. 通过以下网址打开 Amazon SageMaker 控制台:https://console.amazonaws.cn/sagemaker/

  2. 在导航窗格中,选择终端节点

  3. 选择要配置的终端节点。

  4. 对于 Endpoint runtime settings (终端节点运行时设置),选择您要配置的模型。

  5. 对于 Endpoint runtime settings (终端节点运行时设置),选择 Configure autoscaling (配置自动扩展)

    此时将显示 Configure variant automatic scaling (配置变体自动扩展) 页面。

  6. 对于 Minimum capacity (最小容量),键入您希望扩展策略维护的最小实例数。至少需要 1 个实例。

  7. 对于 Maximum capacity (最大容量),键入您希望扩展策略维护的最大实例数。

  8. 对于 target value (目标值),键入模型每分钟每个实例的平均调用次数。要确定该值,请按照负载测试中的准则进行操作。

    Application Auto Scaling 添加或删除实例以使指标接近指定的值。

  9. 对于 Scale-in cool down (seconds) (缩减冷却 (秒)) 和 Scale-out cool down (seconds) (扩展冷却 (秒)),键入每个冷却时间的秒数。假设列表中的顺序是基于最重要的到最不重要的,或第一个应用的到最后一个应用的。

  10. 如果您想确保您的变体扩展以解决增加的流量,但不关心在流量减少时删除实例以降低成本,请选择 Disable scale in (禁用缩减) 来禁用扩展活动,从而防止扩展策略删除变体实例。

    扩展活动始终处于启用状态,以便扩展策略可以根据需要创建终端节点实例。

  11. 选择 Save (保存)

此过程使用 Application Auto Scaling 将模型注册为可扩展目标。当您注册模型时,Application Auto Scaling 执行验证检查以确保以下内容:

  • 该模型存在

  • 权限足够

  • 您没有注册具有可突增性能实例 (如 T2) 的变体。

    注意

    SageMaker 不支持可突增发实例(如 T2)的自动扩展,因为它们已经允许在增加的工作负载下增加容量。有关可突增性能实例的信息,请参阅 Amazon EC2 实例类型