部署基础模型和自定义经过微调的模型

无论您是部署来自 Amazon 的预训练基础开放权重模型或门控模型，还是存储在 Amazon SageMaker JumpStart S3 或 Amazon FSx 中的自定义或微调模型，都可 SageMaker HyperPod 提供生产推理工作负载所需的灵活、可扩展的基础设施。

	从中部署开放式权重和封闭式基础模型 JumpStart	部署 Amazon S3 和 Amazon FSx 中的自定义模型和经过微调的模型	从本地 NVMe 存储部署模型
描述	使用针对每个模型系列定制的自动优化和扩展策略，从全面的预训练基础模型目录中进行部署。	带上您自己的自定义和微调模型，并使用 SageMaker HyperPod企业基础设施进行生产规模的推理。在 Amazon S3 的经济高效的存储与 Amazon FSx 的高性能文件系统之间进行选择。	从节点的本地 NVMe 存储中加载模型权重，以消除 Pod 启动期间的网络延迟。对于自动扩展事件、从零扩展的工作负载和对延迟敏感的故障转移非常有用。
主要优势	One-click 通过亚马逊 SageMaker Studio 用户界面部署 Auto-scaling 基于收到的请求自动启用 Pre-optimized 每个型号系列的容器和配置门控模型的 EULA 处理	支持多个存储后端：Amazon S3、Amazon FSx 灵活的容器和框架支持根据模型特征自定义扩展策略	通过在本地读取砝码来缩短冷启动时间模型加载不依赖网络当 NVMe 缓存丢失时，可选择回退到 Amazon S3 自定义 Kubernetes 卷和 initContainers
部署选项	用于视觉部署的 Amazon SageMaker Studio kubectl 用于操作 Kubernetes-native 用于程序化集成的 Python SDK HyperPod 用于命令行自动化的 CLI	kubectl 用于操作 Kubernetes-native 用于程序化集成的 Python SDK HyperPod 用于命令行自动化的 CLI	kubectl 用于操作 Kubernetes-native 用于程序化集成的 Python SDK HyperPod 用于命令行自动化的 CLI

以下各节将引导您完成从亚马逊 SageMaker JumpStart、亚马逊 S3 和 Amazon FSx 以及本地 NVMe 存储中部署模型的过程。

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

设置 HyperPod 集群以进行模型部署

JumpStart 使用 Studio 部署模型