使用 Amazon A SageMaker I 进行推理的后续步骤 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon A SageMaker I 进行推理的后续步骤

有了终端节点并了解了一般的推理工作流程后,就可以使用 SageMaker AI 中的以下功能来改进推理工作流程。

监控

要通过模型精度和偏差等指标跟踪模型随时间的变化,您可以使用 Model Monitor。使用 Model Monitor,您可以设置警报,以便在模型质量出现偏差时通知您。要了解更多信息,请参阅 Model Monitor 文档

要详细了解可用于监控模型部署和更改终端节点的事件的工具,请参阅监控 Amazon A SageMaker I。例如,您可以使用 Amazon 指标通过调用错误和模型延迟等指标来监控终端节点的 CloudWatch 运行状况。A SageMaker I 终端节点调用指标可以为您提供有关终端节点性能的宝贵信息。

用于模型部署的 CI/CD

要整理 SageMaker AI 中的机器学习解决方案,你可以使用 SageMaker AI MLOps。您可以使用此功能自动执行机器学习工作流中的步骤并执行 CI/CD 实践。您可以使用MLOps 项目模板来帮助设置和实施 SageMaker AI MLOps 项目。 SageMaker AI 还支持使用你自己的第三方 Git 存储库来创建 CI/CD 系统。

对于您的 ML 管道,请使用模型注册表来管理模型版本以及模型的部署和自动化。

部署防护机制

如果您想在不影响生产的情况下更新生产环境中的模型,则可以使用部署防护机制。部署护栏是 SageMaker AI Inference 中的一组模型部署选项,用于在生产环境中更新机器学习模型。使用完全托管式部署选项,您可以在生产环境中控制从当前模型切换到新模型的过程。流量转移模式可让您精细控制流量转移过程,而自动回滚等内置保护措施可帮助您尽早发现问题。

要了解有关部署防护机制的更多信息,请参阅部署防护机制文档

Inferentia

如果您需要运行大规模机器学习和深度学习应用程序,可以使用带有实时端点的 Inf1 实例。这种实例类型适用于映像或语音识别、自然语言处理(NLP)、个性化、预测或欺诈检测等使用场景。

Inf1实例专为支持机器学习推理应用程序而构建,并采用 Inf Amazon erentia 芯片。 Inf1与基于 GPU 的实例相比,实例可提供更高的吞吐量和更低的每次推理成本。

要在Inf1实例上部署模型,请使用 SageMaker Neo 编译模型,然后为部署选项选择一个Inf1实例。要了解更多信息,请参阅使用 SageMaker Neo 优化模型性能

优化模型性能

SageMaker 在部署机器学习模型时,AI 提供了管理资源和优化推理性能的功能。你可以使用 SageMaker AI 的内置算法和预建模型,以及为机器学习开发的预建 Docker 镜像

要训练模型并对其进行优化以进行部署,请参阅预构建的 Docker 镜像使用 SageMaker Neo 优化模型性能。使用 SageMaker Neo,你可以训练 TensorFlow、Apache MXNet、 PyTorch、ONNX 和模型。 XGBoost 然后,您可以对其进行优化,并在 ARM、Intel 和 Nvidia 处理器上进行部署。

自动扩缩

如果您的端点流量各不相同,则可能需要尝试自动扩缩。例如,在高峰时段,您可能需要更多实例来处理请求。不过,在流量较低期间,您可能希望减少计算资源的使用。要动态调整预配置的实例数以响应工作负载更改,请参阅自动缩放 Amazon SageMaker 人工智能模型

如果您的流量规律不可预测或不想设置扩展策略,也可以对端点使用无服务器推理。然后, SageMaker AI 会为您管理自动缩放。在流量低迷时期, SageMaker AI 会缩小您的终端节点,如果流量增加, SageMaker AI 就会向上扩展您的终端节点。有关更多信息,请参阅使用 Amazon SageMaker 无服务器推理部署模型 文档。