

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Amazon SageMaker HyperPod
<a name="sagemaker-hyperpod"></a>

SageMaker HyperPod 帮助您配置弹性集群，以运行机器学习 (ML) 工作负载和开发 state-of-the-art大型语言模型 (LLMs)、扩散模型和基础模型 (FMs) 等模型。它 FMs 通过消除构建和维护由数千个加速器（例如 Amazon Trainium 和 NVIDIA A100 和 H100 图形处理单元）提供支持的大型计算集群所涉及的无差别繁重工作来加速开发（）。GPUs当加速器出现故障时， SageMaker HyperPod 监控集群实例的弹性功能会自动检测并即时更换故障硬件，这样您就可以专注于运行 ML 工作负载。

要开始使用，请选[使用的先决条件 SageMaker HyperPod](sagemaker-hyperpod-prerequisites.md)中[Amazon Identity and Access Management 对于 SageMaker HyperPod](sagemaker-hyperpod-prerequisites-iam.md)、设置并选择以下支持的 Orchestrator 选项之一。 SageMaker HyperPod

**Slurm 支持中 SageMaker HyperPod**

SageMaker HyperPod 通过与开源工作负载管理器 Slurm 集成，为在弹性集群上运行机器学习工作负载提供支持。中的 Slurm 支持通过 Slurm 集群配置 SageMaker HyperPod实现了无缝集群编排，允许您在集群上设置主节点、登录节点和工作节点。该集成还便于基于 SLURM 的作业调度，用于在集 SageMaker HyperPod 群上运行 ML 工作负载，以及直接访问集群节点进行作业调度。借助 HyperPod生命周期配置支持，您可以自定义集群的计算环境以满足您的特定要求。此外，通过利用 Amazon SageMaker AI 分布式训练库，您可以优化集群在 Amazon 计算和网络资源方面的性能。要了解更多信息，请参阅[使用 Slurm 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-slurm.md)。

**亚马逊 EKS 支持 SageMaker HyperPod**

SageMaker HyperPod 还与 Amazon EKS 集成，可在长时间运行且具有弹性的计算集群上大规模训练基础模型。这允许集群管理员用户配置 HyperPod 集群并将其连接到 EKS 控制平面，从而实现动态容量管理、直接访问集群实例和弹性功能。对于数据科学家，Amazon EKS 的支持 HyperPod 允许运行容器化工作负载用于训练基础模型、在 EKS 集群上进行推理，以及利用作业自动恢复功能进行 Kubeflow 训练。 PyTorch 该架构涉及 VPC 内的 EKS 集群（控制平面）和集 HyperPod群（工作节点）之间的一对一映射，为运行大规模机器学习工作负载提供了紧密集成的解决方案。要了解更多信息，请参阅[使用 Amazon EKS 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-eks.md)。

**UltraServers with HyperPod**

HyperPod 通过将 NVIDIA 超级芯片集成到一个有凝聚力的高性能基础设施中， UltraServers 提供 AI 计算能力。每个实例 NVL72 UltraServer 结合了 18 个实例和 72 个 NVIDIA Blackwell 通过 GPUs 连接的实例 NVLink，与上一代实例相比，可实现更快的推理和更快的训练性能。这种架构对于使用万亿参数基础模型的组织特别有价值，因为统一的 GPU 内存允许整个模型保留在单个 NVLink 域中，从而消除了跨节点网络瓶颈。 HyperPod 通过优化工作负载放置的智能拓扑感知调度、自动更换实例以最大限度地减少中断，以及支持专用和共享资源配置的灵活部署选项，增强了这一硬件优势。对于致力于突破模型规模与性能边界的团队而言，这一集成奠定了所需的计算基础，能够以前所未有的效率训练和部署最先进的 AI 模型。

SageMaker HyperPod 自动优化您的实例布局。 UltraServers默认情况下，在使用 HyperPod 其他实例 UltraServer 之前，先将所有实例合而为一。例如，如果您想要 14 个实例，并且计划 UltraServers 中有 2 个实例， SageMaker AI 会使用第一个实例中的所有实例 UltraServer。如果您想要 20 个实例， SageMaker AI 会使用第一个实例中的所有 18 个实例， UltraServer 然后再使用第二个实例中的 2 个实例。

## Amazon Web Services 区域 由 SageMaker HyperPod
<a name="sagemaker-hyperpod-available-regions"></a>

SageMaker HyperPod 可在以下版本中找到 Amazon Web Services 区域。
+ us-east-1
+ us-east-2
+ us-west-1
+ us-west-2
+ eu-central-1
+ eu-north-1
+ eu-west-1
+ eu-west-2
+ eu-south-2
+ ap-south-1
+ ap-southeast-1
+ ap-southeast-2
+ ap-southeast-3
+ ap-southeast-4
+ ap-northeast-1
+ sa-east-1

**Topics**
+ [Amazon Web Services 区域 由 SageMaker HyperPod](#sagemaker-hyperpod-available-regions)
+ [Amazon SageMaker HyperPod 快速入门](sagemaker-hyperpod-quickstart.md)
+ [使用的先决条件 SageMaker HyperPod](sagemaker-hyperpod-prerequisites.md)
+ [Amazon Identity and Access Management 对于 SageMaker HyperPod](sagemaker-hyperpod-prerequisites-iam.md)
+ [客户托管的 Amazon KMS key 加密 SageMaker HyperPod](smcluster-cmk.md)
+ [SageMaker HyperPod 食谱](sagemaker-hyperpod-recipes.md)
+ [使用 Slurm 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-slurm.md)
+ [使用 Amazon EKS 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-eks.md)
+ [在 Amazon 中使用拓扑感知调度 SageMaker HyperPod](sagemaker-hyperpod-topology.md)
+ [在 Amazon 上部署模型 SageMaker HyperPod](sagemaker-hyperpod-model-deployment.md)
+ [HyperPod 在工作室里](sagemaker-hyperpod-studio.md)
+ [SageMaker HyperPod 参考文献](sagemaker-hyperpod-ref.md)
+ [亚马逊 SageMaker HyperPod 发行说明](sagemaker-hyperpod-release-notes.md)
+ [亚马逊 SageMaker HyperPod AMI](sagemaker-hyperpod-release-ami.md)