使用多模型服务器构建您自己的容器 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用多模型服务器构建您自己的容器

Amazon SageMaker 中部署的自定义 Elastic Container Registry (ECR) 映像应符合 将您自己的推理代码用于托管服务 中介绍的基本合同,该合同管理 SageMaker 如何与运行您自己的推理代码的 Docker 容器交互。为了使容器能够同时加载和服务多个模型,还必须遵循其他 API 和行为。该附加合同包括用于加载、列出、获取和卸载模型的新 API,以及用于调用模型的不同 API。在发生错误需要遵循 API 的情况下,还存在一些不同行为。为了表明您的容器符合额外要求,您可以在 Docker 文件中添加以下命令:

LABEL com.amazonaws.sagemaker.capabilities.multi-models=true

SageMaker 还会在容器中注入环境变量

SAGEMAKER_MULTI_MODEL=true

如果要为串行推理管道创建多模型终端节点,Docker 文件必须同时具有多模型和串行推理管道所需的标签。有关串行信息管道的更多信息,请参阅运行实时预测,以增强推理管道

为了帮助您实现自定义容器的这些要求,我们提供了两个库:

  • 多模型服务器是一个提供机器学习模型的开源框架,可在容器中安装此框架以便提供满足新的多模型终端节点容器 API 要求的前端。它提供了多模型终端节点所需的 HTTP 前端和模型管理功能,可以在单个容器中托管多个模型,在容器中动态加载和卸载模型,以及对指定加载模型执行推理。它还提供了一个支持可插入自定义后端处理程序的可插入后端,您可以在该后端实现自己的算法。

  • SageMaker 推理工具包是一个引导多模型服务器的库,其配置和设置使其与 SageMaker 多模型终端节点兼容。它还允许您根据场景需求调整重要的性能参数,例如,每个模型的工作人员数。

使用 SageMaker 推理工具包

目前,支持多模型终端节点的唯一预构建容器是 MXNet 推理容器和 PyTorch 推理容器。如果要使用任何其他框架或算法,您需要构建一个容器。要执行该操作,最简单的方法是使用 SageMaker 推理工具包扩展现有的预构建容器。SageMaker 推理工具包是一个多模型服务器 (MMS) 实施,它创建可在 SageMaker 中部署的终端节点。有关演示如何在 SageMaker 中设置和部署支持多模型终端节点的自定义容器的示例笔记本,请参阅多模型终端节点 BYOC 示例笔记本

注意

SageMaker 推理工具包仅支持 Python 模型处理程序。如果要以任何其他语言实施处理程序,您必须构建自己的容器以实施额外的多模型终端节点 API。有关信息,请参阅 自定义容器处理多个模型的合同

使用 SageMaker 推理工具包扩展容器

  1. 创建一个模型处理程序。MMS 需要使用一个模型处理程序,这是一个 Python 文件,它实施一些函数以进行预处理,从模型中获得结果以及在模型处理程序中处理输出。有关模型处理程序的示例,请参阅示例笔记本中的 model_handler.py

  2. 导入推理工具包并使用其 model_server.start_model_server 函数以启动 MMS。以下示例来自于示例笔记本中的 dockerd-entrypoint.py 文件。请注意,model_server.start_model_server 调用传递上一步中描述的模型处理程序:

    import subprocess import sys import shlex import os from retrying import retry from subprocess import CalledProcessError from sagemaker_inference import model_server def _retry_if_error(exception): return isinstance(exception, CalledProcessError or OSError) @retry(stop_max_delay=1000 * 50, retry_on_exception=_retry_if_error) def _start_mms(): # by default the number of workers per model is 1, but we can configure it through the # environment variable below if desired. # os.environ['SAGEMAKER_MODEL_SERVER_WORKERS'] = '2' model_server.start_model_server(handler_service='/home/model-server/model_handler.py:handle') def main(): if sys.argv[1] == 'serve': _start_mms() else: subprocess.check_call(shlex.split(' '.join(sys.argv[1:]))) # prevent docker exit subprocess.call(['tail', '-f', '/dev/null']) main()
  3. Dockerfile 中,从第一步中复制模型处理程序,并在 Dockerfile 中将上一步中的 Python 文件指定为入口点。以下几行来自于示例笔记本中使用的 Dockerfile

    # Copy the default custom service file to handle incoming data and inference requests COPY model_handler.py /home/model-server/model_handler.py # Define an entrypoint script for the docker image ENTRYPOINT ["python", "/usr/local/bin/dockerd-entrypoint.py"]
  4. 构建并注册您的容器。示例笔记本中的以下 Shell 脚本构建容器,并将其上传到您的 Amazon Elastic Container Registry 账户中的 AWS 存储库:

    %%sh # The name of our algorithm algorithm_name=demo-sagemaker-multimodel cd container account=$(aws sts get-caller-identity --query Account --output text) # Get the region defined in the current configuration (default to us-west-2 if none defined) region=$(aws configure get region) region=${region:-us-west-2} fullname="${account}.dkr.ecr.${region}.amazonaws.com/${algorithm_name}:latest" # If the repository doesn't exist in ECR, create it. aws ecr describe-repositories --repository-names "${algorithm_name}" > /dev/null 2>&1 if [ $? -ne 0 ] then aws ecr create-repository --repository-name "${algorithm_name}" > /dev/null fi # Get the login command from ECR and execute it directly $(aws ecr get-login --region ${region} --no-include-email) # Build the docker image locally with the image name and then push it to ECR # with the full name. docker build -q -t ${algorithm_name} . docker tag ${algorithm_name} ${fullname} docker push ${fullname}

现在,您可以使用该容器在 SageMaker 中部署多模型终端节点。