使用 Amazon EKS 编排 SageMaker HyperPod 集群 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon EKS 编排 SageMaker HyperPod 集群

SageMaker HyperPod 是一项 SageMaker AI 托管服务,支持在长时间运行且具有弹性的计算集群上大规模训练基础模型,并与 Amazon EKS 集成以协调计算资源。 HyperPod 您可以使用具有 HyperPod弹性功能的 Amazon EKS 集群大规模运行数周或数月的不间断训练作业,这些集群可以检查各种硬件故障并自动恢复故障节点。

针对集群管理员用户的主要功能如下。

  • 配置弹性 HyperPod 集群并将其连接到 EKS 控制平面

  • 启用动态容量管理,例如添加更多节点、更新软件和删除集群

  • 通过 kubectl 或 SSM/SSH 直接访问集群实例

  • 提供弹性功能,包括基本运行状况检查、深度运行状况检查、运行状况监控代理以及对作业自动恢复的 PyTorch 支持

  • Amazon Container Insights、适用于 Prometheus 的亚马逊托管服务和亚马逊托管 Grafana 等可观察性工具 CloudWatch集成

对于数据科学家用户,中的 EKS 支持 HyperPod 可实现以下功能。

  • 在集群上运行用于训练基础模型的容器化工作负载 HyperPod

  • 利用 HyperPod 和 EKS 之间的集成,在 EKS 集群上运行推理

  • 利用作业自动恢复功能进行 Kubeflow PyTorch 训练 () PyTorchJob

注意

Amazon EKS 支持 SageMaker HyperPod通过 Amazon EKS 控制平面对任务和基础设施进行用户管理的编排。确保用户通过 Kubernetes API Server 端点访问集群时遵循最小权限原则,并确保来自集群的网络出站是安全的。 HyperPod

要详细了解如何保护对 Amazon EKS API 服务器的访问权限,请参阅控制对集群 API 服务器终端节点的网络访问

要了解有关保护网络访问的更多信息 HyperPod,请参阅 SageMaker HyperPod使用自定义 Amazon VPC 进行设置

中 Amazon EKS 支持的高级架构 HyperPod 涉及 VPC 内的 EKS 集群(控制平面)和 HyperPod 集群(工作节点)之间的一对一映射,如下图所示。

EKS and HyperPod VPC architecture with control plane, 集群 nodes, and Amazon Web Services 服务.