Amazon Web Services 区域由 SageMaker HyperPod

Amazon SageMaker HyperPod

SageMaker HyperPod 帮助您配置弹性集群，以运行机器学习 (ML) 工作负载和开发 state-of-the-art大型语言模型 (LLMs)、扩散模型和基础模型 (FMs) 等模型。它 FMs 通过消除构建和维护由数千个加速器（例如 Amazon Trainium 和 NVIDIA A100 和 H100 图形处理单元）提供支持的大型计算集群所涉及的无差别繁重的工作（）来加速开发。GPUs当加速器出现故障时， SageMaker HyperPod 监控集群实例的弹性功能会自动检测并即时更换故障硬件，这样您就可以专注于运行 ML 工作负载。

要开始使用，请选使用 SageMaker HyperPod 的先决条件中Amazon Identity and Access Management 对于 SageMaker HyperPod、设置并选择以下支持的 Orchestrator 选项之一。 SageMaker HyperPod

Slurm 支持中 SageMaker HyperPod

SageMaker HyperPod 通过与开源工作负载管理器 Slurm 集成，为在弹性集群上运行机器学习工作负载提供支持。中的 Slurm 支持通过 Slurm 集群配置 SageMaker HyperPod实现了无缝集群编排，允许您在集群上设置主节点、登录节点和工作节点。该集成还便于基于 SLURM 的作业调度，以便在集 SageMaker HyperPod 群上运行 ML 工作负载，以及直接访问集群节点进行作业调度。借助 HyperPod生命周期配置支持，您可以自定义集群的计算环境以满足您的特定要求。此外，通过利用 Amazon SageMaker AI 分布式训练库，您可以优化集群在 Amazon 计算和网络资源方面的性能。要了解更多信息，请参阅使用 Slurm 编排 SageMaker HyperPod 集群。

亚马逊 EKS 支持 SageMaker HyperPod

SageMaker HyperPod 还与 Amazon EKS 集成，可在长时间运行且具有弹性的计算集群上大规模训练基础模型。这允许集群管理员用户配置 HyperPod 集群并将其连接到 EKS 控制平面，从而实现动态容量管理、直接访问集群实例和弹性功能。对于数据科学家，Amazon EKS 的支持 HyperPod 允许运行容器化工作负载用于训练基础模型、在 EKS 集群上进行推理，以及利用作业自动恢复功能进行 Kubeflow 训练。 PyTorch 该架构涉及 VPC 内的 EKS 集群（控制平面）和集 HyperPod群（工作节点）之间的一对一映射，为运行大规模机器学习工作负载提供了紧密集成的解决方案。要了解更多信息，请参阅使用 Amazon EKS 编排 SageMaker HyperPod 集群。

Amazon Web Services 区域由 SageMaker HyperPod

SageMaker HyperPod 可在以下版本中找到 Amazon Web Services 区域。

us-east-1
us-east-2
us-west-1
us-west-2
eu-central-1
eu-north-1
eu-west-1
eu-west-2
ap-south-1
ap-southeast-1
ap-southeast-2
ap-southeast-4
ap-northeast-1
sa-east-1

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

自定义镜像

快速入门

Amazon SageMaker HyperPod

Amazon Web Services 区域 由 SageMaker HyperPod

主题

Amazon Web Services 区域由 SageMaker HyperPod