使用 Amazon 进行推理的后续步骤 SageMaker - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon 进行推理的后续步骤 SageMaker

有了终端节点并了解了一般的推理工作流程后,您可以使用中的以下功能 SageMaker 来改进您的推理工作流程。

监控

要通过模型精度和偏差等指标跟踪模型随时间的变化,您可以使用 Model Monitor。使用 Model Monitor,您可以设置警报,以便在模型质量出现偏差时通知您。要了解更多信息,请参阅 Model Monitor 文档

要详细了解可用于监控模型部署和更改终端节点的事件的工具,请参阅监控 Amazon SageMaker。例如,您可以使用 Amazon 指标通过调用错误和模型延迟等指标监控终端节点的 CloudWatch 运行状况。SageMaker 端点调用指标可以为您提供有关终端节点性能的宝贵信息。

用于模型部署的 CI/CD

要整合机器学习解决方案 SageMaker,可以使用SageMakerMLOps。您可以使用此功能自动执行机器学习工作流中的步骤并执行 CI/CD 实践。您可以使用MLOps项目模板来帮助设置和实施 SageMaker MLOps项目。 SageMaker 还支持使用自己的第三方 Git 存储库来创建 CI/CD 系统。

对于您的 ML 管道,请使用模型注册表来管理模型版本以及模型的部署和自动化。

部署防护机制

如果您想在不影响生产的情况下更新生产环境中的模型,则可以使用部署防护机制。部署护栏是 SageMaker Inference 中的一组模型部署选项,用于在生产环境中更新机器学习模型。使用完全托管式部署选项,您可以在生产环境中控制从当前模型切换到新模型的过程。流量转移模式可让您精细控制流量转移过程,而自动回滚等内置保护措施可帮助您尽早发现问题。

要了解有关部署防护机制的更多信息,请参阅部署防护机制文档

Inferentia

如果您需要运行大规模的机器学习和深度学习应用程序,则可以使用带有实时终端节点的Inf1实例。此实例类型适用于图像或语音识别、自然语言处理 (NLP)、个性化、预测或欺诈检测等用例。

Inf1实例专为支持机器学习推理应用程序而构建,并采用 Inf Amazon erentia 芯片。 Inf1与GPU基于实例的实例相比,实例可提供更高的吞吐量和更低的每次推理成本。

要在Inf1实例上部署模型,请使用 SageMaker Neo 编译模型,然后为部署选项选择一个Inf1实例。要了解更多信息,请参阅使用 SageMaker Neo 优化模型性能

优化模型性能

SageMaker 提供在部署机器学习模型时管理资源和优化推理性能的功能。您可以使用 SageMaker的内置算法和预建模型,以及为机器学习开发的预构建的 Docker 镜像

要训练模型并对其进行优化以进行部署,请参阅预构建的 Docker 镜像使用 SageMaker Neo 优化模型性能。使用 SageMaker Neo,你可以训练 TensorFlow、Apache MXNet PyTorch、ONNX、和XGBoost模型。然后,您可以对其进行优化并部署在英特尔和Nvidia处理器上ARM。

自动扩缩

如果您的端点流量各不相同,则可能需要尝试自动扩缩。例如,在高峰时段,您可能需要更多实例来处理请求。但是,在流量较低的时期,您可能需要减少对计算资源的使用。要动态调整预配置的实例数以响应工作负载更改,请参阅自动缩放 Amazon SageMaker 机型

如果您的流量模式不可预测或不想设置扩展策略,也可以对终端节点使用无服务器推理。然后,为您 SageMaker 管理自动缩放。在流量较低的时期, SageMaker 缩小您的终端节点,如果流量增加,则向上 SageMaker 扩展您的终端节点。有关更多信息,请参阅使用 Amazon SageMaker 无服务器推理部署模型 文档。