本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
创建端点配置
创建模型后,创建端点配置。然后,您可以使用端点配置中的规范来部署模型。在配置中,您可以指定需要实时端点还是无服务器端点。要创建无服务器终端节点配置,您可以使用 Amazon SageMaker 控制台CreateEndpointConfig
创建端点配置(使用API)
以下示例使用 for Python (Boto3)
-
对于
EndpointConfigName
,为端点配置选择一个名称。该名称在您的区域账户中应是唯一的。 -
(可选)对于
KmsKeyId
,使用要使用的密钥ARN的密钥 ID、 Amazon KMS 密钥、别名或别名ARN。 SageMaker 使用此密钥加密您的 Amazon ECR 图片。 -
对于
ModelName
,使用要部署的模型的名称。该模型应与您在创建模型步骤中使用的模型相同。 -
对于
ServerlessConfig
:-
将
MemorySizeInMB
设置为2048
。在此示例中,我们将内存大小设置为 2048 MB,但您也可以选择以下任何值作为内存大小:1024 MB、2048 MB、3072 MB、4096 MB、5120 MB 或 6144 MB。 -
将
MaxConcurrency
设置为20
。在此示例中,我们将最大并发量设置为 20。可以为无服务器端点设置的最大并发调用数是 200,可以选择的最小值是 1。 -
(可选)要使用预置并发,请将
ProvisionedConcurrency
设置为 10。在此示例中,我们将预置并发设置为 10。无服务器端点的ProvisionedConcurrency
数量必须小于或等于MaxConcurrency
数量。如果您想按需使用无服务器推理端点,则可以将此值留空。您可以动态扩展预置并发。有关更多信息,请参阅 自动扩展无服务器端点的预置并发。
-
response = client.create_endpoint_config( EndpointConfigName="
<your-endpoint-configuration>
", KmsKeyId="arn:aws:kms:us-east-1:123456789012:key/143ef68f-76fd-45e3-abba-ed28fc8d3d5e", ProductionVariants=[ { "ModelName": "<your-model-name>
", "VariantName": "AllTraffic", "ServerlessConfig": { "MemorySizeInMB": 2048, "MaxConcurrency": 20, "ProvisionedConcurrency": 10, } } ] )
创建端点配置(使用控制台)
-
在导航选项卡中,选择推理。
-
接下来,选择端点配置。
-
选择创建端点配置。
-
对于端点配置名称,输入一个在您的区域账户中唯一的名称。
-
对于端点类型,选择无服务器。
-
对于生产变体,选择添加模型。
-
在添加模型下,从模型列表中选择要使用的模型,然后选择保存。
-
添加模型后,在操作下选择编辑。
-
对于内存大小,选择所需的内存大小(以 GB 为单位)。
-
对于最大并发量,输入端点所需的最大并发调用数。可输入的最大值为 200,最小值为 1。
-
(可选)要使用预置并发,请在预置并发设置字段中输入所需的并发调用数。预置并发调用数必须小于或等于最大并发调用数。
-
选择保存。
-
(可选)对于标签,如果要为端点配置创建元数据,请输入键值对。
-
选择创建端点配置。