创建端点配置 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建端点配置

创建模型后,创建端点配置。然后,您可以使用端点配置中的规范来部署模型。在配置中,您可以指定需要实时端点还是无服务器端点。要创建无服务器终端节点配置,您可以使用 Amazon SageMaker 控制台CreateEndpointConfigAPI、或。 Amazon CLI以下各节概述了API和控制台方法。

创建端点配置(使用API)

以下示例使用 for Python (Boto3) 调用。Amazon SDK CreateEndpointConfigAPI指定以下值:

  • 对于 EndpointConfigName,为端点配置选择一个名称。该名称在您的区域账户中应是唯一的。

  • (可选)对于KmsKeyId,使用要使用的密钥ARN的密钥 ID、 Amazon KMS 密钥、别名或别名ARN。 SageMaker 使用此密钥加密您的 Amazon ECR 图片。

  • 对于 ModelName,使用要部署的模型的名称。该模型应与您在创建模型步骤中使用的模型相同。

  • 对于 ServerlessConfig

    • MemorySizeInMB 设置为 2048。在此示例中,我们将内存大小设置为 2048 MB,但您也可以选择以下任何值作为内存大小:1024 MB、2048 MB、3072 MB、4096 MB、5120 MB 或 6144 MB。

    • MaxConcurrency 设置为 20。在此示例中,我们将最大并发量设置为 20。可以为无服务器端点设置的最大并发调用数是 200,可以选择的最小值是 1。

    • (可选)要使用预置并发,请将 ProvisionedConcurrency 设置为 10。在此示例中,我们将预置并发设置为 10。无服务器端点的 ProvisionedConcurrency 数量必须小于或等于 MaxConcurrency 数量。如果您想按需使用无服务器推理端点,则可以将此值留空。您可以动态扩展预置并发。有关更多信息,请参阅 自动扩展无服务器端点的预置并发

response = client.create_endpoint_config( EndpointConfigName="<your-endpoint-configuration>", KmsKeyId="arn:aws:kms:us-east-1:123456789012:key/143ef68f-76fd-45e3-abba-ed28fc8d3d5e", ProductionVariants=[ { "ModelName": "<your-model-name>", "VariantName": "AllTraffic", "ServerlessConfig": { "MemorySizeInMB": 2048, "MaxConcurrency": 20, "ProvisionedConcurrency": 10, } } ] )

创建端点配置(使用控制台)

  1. 登录 Amazon SageMaker 控制台

  2. 在导航选项卡中,选择推理

  3. 接下来,选择端点配置

  4. 选择创建端点配置

  5. 对于端点配置名称,输入一个在您的区域账户中唯一的名称。

  6. 对于端点类型,选择无服务器

    控制台中端点类型选项的屏幕截图。
  7. 对于生产变体,选择添加模型

  8. 添加模型下,从模型列表中选择要使用的模型,然后选择保存

  9. 添加模型后,在操作下选择编辑

  10. 对于内存大小,选择所需的内存大小(以 GB 为单位)。

    控制台中的内存大小选项的屏幕截图。
  11. 对于最大并发量,输入端点所需的最大并发调用数。可输入的最大值为 200,最小值为 1。

  12. (可选)要使用预置并发,请在预置并发设置字段中输入所需的并发调用数。预置并发调用数必须小于或等于最大并发调用数。

  13. 选择保存

  14. (可选)对于标签,如果要为端点配置创建元数据,请输入键值对。

  15. 选择创建端点配置