本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用控制台配置模型auto 扩展
使用控制台为模型配置auto 缩放
-
通过 https://console.aws.amazon.com/sagemaker/
打开亚马逊 SageMaker 控制台。 -
在导航窗格中,打开 Infreence 并选择 Endpoin t s。
-
选择要配置的终端节点。
-
对于 Endpoint runtime settings (终端节点运行时设置),选择您要配置的模型。
-
对于 Endpoint runtime settings (终端节点运行时设置),选择 Configure auto scaling (配置自动扩展)。
此时将显示 Configure variant automatic scaling (配置变体自动扩展) 页面。
-
对于 Minimum capacity (最小容量),键入您希望扩展策略维护的最小实例数。至少需要 1 个实例。
-
对于 Maximum capacity (最大容量),键入您希望扩展策略维护的最大实例数。
-
对于 target value (目标值),键入模型每分钟每个实例的平均调用次数。要确定该值,请按照负载测试中的准则进行操作。
Application Auto Scaling 将添加或删除实例,以便使指标接近于您指定的值。
-
对于 Scale-in cool down (seconds) (缩减冷却 (秒)) 和 Scale-out cool down (seconds) (扩展冷却 (秒)),键入每个冷却时间的秒数。假设列表中的顺序是基于最重要的到最不重要的,或第一个应用的到最后一个应用的。
-
如果您想确保扩展变体以应对流量增加,但又不关心在流量减少时移除实例以降低成本,请选择停用扩展策略删除变体实例,请选择停用扩展策略来防止扩展策略删除变体实例。
扩展活动始终处于激活状态,以便扩展策略可以根据需要创建终端节点实例。
-
选择保存。
此过程将模型注册为Application Auto Scaling。注册模型时,Application Auto Scaling 会执行验证检查以确保满足以下条件:
-
该模型存在
-
权限足够
-
您没有注册具有可突增性能实例 (如 T2) 的变体。
注意
SageMaker 不支持对 T2 等突发实例进行auto 扩展,因为它们已经允许在工作负载增加的情况下增加容量。有关可突增性能实例的信息,请参阅 Amazon EC2 实例类型
。