部署模型用于推理

借助 SageMaker Amazon AI，您可以开始从经过训练的机器学习模型中获得预测或推论。 SageMaker AI 提供了多种机器学习基础架构和模型部署选项，以帮助满足您的所有机器学习推理需求。借助 SageMaker AI Inference，您可以扩展模型部署，在生产环境中更有效地管理模型，并减轻运营负担。 SageMaker AI 为您提供各种推理选项，例如用于获取低延迟推理的实时终端节点、用于完全托管基础设施和自动缩放的无服务器端点，以及用于批量请求的异步端点。通过利用适合您使用情况的推理选项，您可以确保高效的模型部署和推理。

选择功能

使用 SageMaker AI 部署机器学习模型有多种用例。本节介绍这些用例，以及我们为每个用例推荐的 SageMaker AI 功能。

使用案例

以下是使用 SageMaker AI 部署机器学习模型的主要用例。

使用场景 1：在低代码或无代码环境中部署机器学习模型。对于初学者或 SageMaker 人工智能新手，您可以 SageMaker JumpStart 通过 Amazon SageMaker Studio 界面使用 Amazon 部署经过预训练的模型，而无需进行复杂的配置。
使用场景 2：使用代码部署机器学习模型，更具灵活性和可控性。经验丰富的机器学习从业者可以使用 SageMaker AI Python SDK 中的ModelBuilder类部署自己的模型，其中包含针对其应用程序需求的自定义设置，该类可对各种设置（例如实例类型、网络隔离和资源分配）进行精细控制。
使用场景 3：大规模部署机器学习模型。对于想要在生产中大规模管理模型的高级用户和组织，请使用适用于 Python (Boto3) 的 Amazon SDK 和 Amazon CloudFormation 以及所需的基础设施即代码 (IaC) 和 CI/CD 工具来配置资源并实现资源管理自动化。

推荐的功能

下表描述了与每个用例对应的 SageMaker AI 功能的关键注意事项和权衡取舍。

	应用场景 1	应用场景 2	使用案例 3
SageMaker 人工智能功能	JumpStart 在 Studio 中使用可加快基础模型的部署。	使用来ModelBuilder 自 SageMaker Python 软件开发工具包的模型部署。	使用@@ 大规模部署和管理模型 Amazon CloudFormation。
描述	使用 Studio 用户界面从目录中将预训练模型部署到预先配置的推理端点。该选项非常适合公民数据科学家，或者任何想要部署模型而无需配置复杂设置的人员。	使用 Amazon A SageMaker I Python 软件开发工具包中的`ModelBuilder`类来部署您自己的模型并配置部署设置。该选项非常适合经验丰富的数据科学家，或者任何需要部署自己的模型并需要精细控制的人员。	使用 Amazon CloudFormation 和基础设施即代码 (IaC) 进行编程控制和自动化，用于部署和管理 SageMaker AI 模型。该选项非常适合需要一致和可重复部署的高级用户。
优化	快速、精简地部署流行的开源模型	部署自己的模型	对生产中的模型进行持续管理
注意事项	缺乏针对容器设置和特定应用需求的定制功能	无用户界面，要求您能够自如地开发和维护 Python 代码	需要基础架构管理和组织资源，还需要熟悉适用于 Python (Boto3) 的 Amazon SDK 或熟悉 Amazon CloudFormation 模板。
建议的环境	SageMaker 人工智能领域	使用你的 Amazon 凭据配置的 Python 开发环境并安装了 SageMaker Python SDK，或者一个 SageMaker AI IDE，比如 SageMaker JupyterLab	Amazon CLI、本地开发环境、基础设施即代码 (IaC) 和 CI/CD 工具

其他选项

SageMaker AI 为您的推理用例提供了不同的选项，让您可以选择部署的技术广度和深度：

将模型部署到端点。部署模型时，请考虑以下选项：
- 实时推理。实时推理非常适合有交互式、低延迟要求的推理工作负载。
- 使用 Amazon SageMaker 无服务器推理部署模型。使用无服务器推理部署模型，无需配置或管理任何底层基础设施。该选项非常适合在流量高峰之间有空闲期的工作负载，并且可以承受冷启动。
- 异步推理。队列对传入的请求进行排队并异步处理。此选项非常适合负载大小大（最大 1GB）、处理时间长（长达 1 小时）且延迟要求接近实时的请求
成本优化。要优化推理成本，请考虑以下选项：
- 使用 SageMaker Neo 优化模型性能。使用 SageMaker Neo 以更好的性能和效率优化和运行您的机器学习模型，通过自动优化模型使其在 Amazon Inferentia 芯片等环境中运行，帮助您最大限度地降低计算成本。
- 自动缩放 Amazon SageMaker 人工智能模型。使用自动缩放功能，可根据传入流量规律动态调整端点的计算资源，只需为特定时间内使用的资源付费，从而帮助您优化成本。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

集群修复 GPU 错误

模型部署