使用控制台配置模型自动扩展 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用控制台配置模型自动扩展

使用控制台为模型配置自动扩展

  1. 打开位于 https://console.aws.amazon.com/sagemaker/ 的 Amazon SageMaker 控制台。

  2. 在导航窗格中,选择终端节点

  3. 选择要配置的终端节点。

  4. 对于 Endpoint runtime settings (终端节点运行时设置),选择您要配置的模型。

  5. 对于 Endpoint runtime settings (终端节点运行时设置),选择 Configure autoscaling (配置自动扩展)

    此时将显示 Configure variant automatic scaling (配置变体自动扩展) 页面。

  6. 对于 Minimum capacity (最小容量),键入您希望扩展策略维护的最小实例数。至少需要 1 个实例。

  7. 对于 Maximum capacity (最大容量),键入您希望扩展策略维护的最大实例数。

  8. 对于 target value (目标值),键入模型每分钟每个实例的平均调用次数。要确定该值,请按照负载测试中的准则进行操作。

    Application Auto Scaling 添加或删除实例以使指标接近指标的位置。

  9. 对于 Scale-in cool down (seconds) (缩减冷却 (秒)) 和 Scale-out cool down (seconds) (扩展冷却 (秒)),键入每个冷却时间的秒数。假设列表中的顺序是基于最重要的到最不重要的,或第一个应用的到最后一个应用的。

  10. 如果您想确保您的变体扩展以解决增加的流量,但不关心在流量减少时删除实例以降低成本,请选择 Disable scale in (禁用缩减) 来禁用扩展活动,从而防止扩展策略删除变体实例。

    扩展活动始终处于启用状态,以便扩展策略可以根据需要创建终端节点实例。

  11. 选择 Save

此过程使用 Application Auto Scaling 注册模型为可扩展目标。当您注册模型时,Application Auto Scaling 执行验证检查以确保以下内容:

  • 该模型存在

  • 权限足够

  • 您没有注册具有可突增性能实例 (如 T2) 的变体。

    注意

    SageMaker 不支持可突增发实例 (如 T2) 的自动扩展,因为它们已经允许在增加的工作负载下增加容量。有关可突增性能实例的信息,请参阅 Amazon EC2 实例类型