View a markdown version of this page

部署基础模型和自定义经过微调的模型 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

部署基础模型和自定义经过微调的模型

无论您是部署来自 Amazon 的预训练基础开放权重模型或门控模型,还是存储在 Amazon SageMaker JumpStart S3 或 Amazon FSx 中的自定义或微调模型,都可 SageMaker HyperPod 提供生产推理工作负载所需的灵活、可扩展的基础设施。

从中部署开放式权重和封闭式基础模型 JumpStart 部署 Amazon S3 和 Amazon FSx 中的自定义模型和经过微调的模型 从本地 NVMe 存储部署模型
描述

使用针对每个模型系列定制的自动优化和扩展策略,从全面的预训练基础模型目录中进行部署。

带上您自己的自定义和微调模型,并使用 SageMaker HyperPod企业基础设施进行生产规模的推理。在 Amazon S3 的经济高效的存储与 Amazon FSx 的高性能文件系统之间进行选择。 从节点的本地 NVMe 存储中加载模型权重,以消除 Pod 启动期间的网络延迟。对于自动扩展事件、从零扩展的工作负载和对延迟敏感的故障转移非常有用。
主要优势
  • One-click 通过亚马逊 SageMaker Studio 用户界面部署

  • Auto-scaling 基于收到的请求自动启用

  • Pre-optimized 每个型号系列的容器和配置

  • 门控模型的 EULA 处理

  • 支持多个存储后端:Amazon S3、Amazon FSx

  • 灵活的容器和框架支持

  • 根据模型特征自定义扩展策略

  • 通过在本地读取砝码来缩短冷启动时间

  • 模型加载不依赖网络

  • 当 NVMe 缓存丢失时,可选择回退到 Amazon S3

  • 自定义 Kubernetes 卷和 initContainers

部署选项
  • 用于视觉部署的 Amazon SageMaker Studio

  • kubectl 用于操作 Kubernetes-native

  • 用于程序化集成的 Python SDK

  • HyperPod 用于命令行自动化的 CLI

  • kubectl 用于操作 Kubernetes-native

  • 用于程序化集成的 Python SDK

  • HyperPod 用于命令行自动化的 CLI

  • kubectl 用于操作 Kubernetes-native

  • 用于程序化集成的 Python SDK

  • HyperPod 用于命令行自动化的 CLI

以下各节将引导您完成从亚马逊 SageMaker JumpStart、亚马逊 S3 和 Amazon FSx 以及本地 NVMe 存储中部署模型的过程。