在 SageMaker 托管服务上部署模型的最佳实践 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 SageMaker 托管服务上部署模型的最佳实践

使用 SageMaker 托管服务托管模型时,请考虑以下事项:

  • 通常,客户端应用程序会向 SageMaker HTTPS 终端节点发送请求,以从部署的模型中获取推理。您也可以在测试期间从 Jupyter 笔记本向此终端节点发送请求。

  • 您可以将使用 SageMaker 训练的模型部署到您自己的部署目标。为此,您需要知道模型训练生成的模型构件的特定于算法的格式。有关输出格式的更多信息,请参阅用于训练的常见数据格式中与要使用的算法对应的章节。

  • 您可以将模型的多个变体部署到同一 SageMaker HTTPS 终端节点。这对于测试生产环境中模型的变体非常有用。例如,假设您已在生产环境中部署了模型。您想通过将少量流量(比如 5%)定向到新模型来测试模型的变体。为此,请创建描述模型的两个变体的终端节点配置。您在向 ProductionVariant 发送的请求中指定 CreateEndPointConfig。有关更多信息,请参阅 ProductionVariant

  • 您可以配置ProductionVariant以使用 Application Auto Scaling。有关配置自动扩展的信息,请参阅自动扩展 Amazon SageMaker 型号

  • 您可以修改终端节点,而不用让已部署到生产环境中的模型停止服务。例如,您可以添加新的模型变体,更新现有模型变体的 ML 计算实例配置,或者更改模型变体之间的流量分配。要修改终端节点,请提供新的终端节点配置。SageMaker 实施更改,而不会造成任何停机。有关更多信息,请参阅 UpdateEndpointUpdateEndpointWeightsAndCapacities

  • 在部署模型后更改或删除模型构件或者更改推理代码会产生不可预测的结果。如果您需要更改或删除模型构件或者更改推理代码,则通过提供新的终端节点配置来修改终端节点。一旦提供新的终端节点配置,您便可更改或删除对应于旧终端节点配置的模型构件。

  • 如果您希望在整个数据集上获取推理,请考虑使用批量转换作为托管服务的替代。想要了解有关信息,请参阅 使用批量转换获取整个数据集的推理