本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
部署推理模型
构建并训练模型之后,您可以部署这些模型,以便通过两种方式之一来获取预测:
-
要设置持久性终端节点以便从模型获取预测,请使用 Amazon SageMaker 托管服务。有关如何将模型部署到的示例 SageMaker 托管服务,请参阅创建终端节点并部署模型.
或者,如果您愿意,请观看以下视频教程:
-
要获取整个数据集的预测,请使用 SageMaker 批量转换。有关使用部署模型的概述 SageMaker 批量转换,请参阅使用批量转换.
有关如何使用批量转换部署模型的示例,请参阅 (可选)使用 Batch 变换进行预测。
或者,如果您愿意,请观看以下视频教程:
先决条件
以下主题假设您已构建和训练了一个或多个机器学习模型,并已准备好部署它们。如果您是新手 SageMaker 并且尚未完成这些先决条件任务,请完成开始使用 Amazon SageMaker教程让自己熟悉一个例子 SageMaker 管理数据科学过程以及如何处理模型部署。有关训练模型的更多信息,请参阅。训练模型.
您需要做什么?
在部署机器学习模型时,SageMaker 提供了用于管理资源和优化推理性能的功能。有关使用推理管道、使用 Neo 编译和部署模型、Elastic Inference 以及自动模型伸缩的指南,请参阅以下主题。
-
要管理数据处理和实时预测,或者在管道中处理批量转换,请参阅主机模型以及预处理逻辑作为一个端点后面的串行推理管道。
-
如果要在 inf1 实例上部署模型,请参阅使用 Neo 优化模型性能。
-
要训练一次 TensorFlow、Apache MXNet、PyTorch、ONNX 以及 XGBoost 模型并优化它们以部署到 ARM、Intel 和 Nvidia 处理器上,请参阅 使用 Neo 优化模型性能。
-
在您不需要持久的终端节点时,要快速预处理整个数据集或者从经训练的模型获取大型数据集的推理,请参阅使用批量转换。
-
对部署作为的深度学习模型,有关提升吞吐量并缩短获取实时推理延迟的指南, SageMaker 为终端节点使用 GPU 实例的托管模型,请参阅使用 Amazon SageMaker Elastic Inference (EI) .
-
要动态调整预配置的实例数以响应工作负载更改,请参阅自动扩展 Amazon SageMaker 模型。
-
要使用共享服务容器创建可托管多个模型的终端节点,请参阅在一个端点后面的一个容器中托管多个模。
-
要在生产中测试多个模型,请参阅在生产中安全更新模型。
管理模型部署
有关管理模型部署的指南,包括监控、故障排查和最佳实践,以及有关与推理托管实例关联的存储的信息:
-
有关可用于监控模型部署的工具,请参阅监控 Amazon SageMaker。
-
有关模型部署故障排查,请参阅Amazon 故障排除 SageMaker 模型部署。
-
有关模型部署最佳实践,请参阅最佳实践。
-
有关为不同大小托管实例提供的存储卷大小的更多信息,请参阅主机实例存储卷。
部署自己的推理代码
对于需要有关如何运行自己的推理代码的更高级指导的开发人员:
-
要运行您自己的推理代码托管服务,请参阅将您自己的推理代码用于托管服务。
-
要运行您自己的推理代码用于批量转换,请参阅将您自己的推理代码用于批量转换。