在 Amazon EKS 编排的 SageMaker HyperPod 集群上运行作业 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Amazon EKS 编排的 SageMaker HyperPod 集群上运行作业

以下主题提供了在使用 Amazon EKS 编排的预配置 SageMaker HyperPod 集群上访问计算节点和运行机器学习工作负载的过程和示例。根据您在集群上设置环境的方式,有多种方法可以在 HyperPod 集 HyperPod 群上运行 ML 工作负载。

注意

通过 SageMaker HyperPod CLI 或 kubectl 运行作业时, HyperPod 可以跨命名空间(团队)跟踪计算利用率(GPU/CPU 小时数)。这些指标用电量报告提供:

  • 了解已分配资源与借用资源消耗情况

  • 用于审计的团队资源利用率(最长 180 天)

  • 成本归因与任务治理政策保持一致

要使用使用情况报告,必须安装使用情况报告基础架构。我们强烈建议配置任务治理,以强制执行计算配额并启用精细的成本归因。

有关设置和生成使用情况报告的更多信息,请参阅中的报告计算使用情况 HyperPod

提示

要获得有关如何设置和使用由 Amazon EKS 编排的 SageMaker HyperPod 集群的实践经验和指导,我们建议您参加此次研讨会 Amazon EKS Su ppor t。 SageMaker HyperPod

数据科学家用户可以使用 EKS 集群集作为集群的协调器来训练基础模型。 SageMaker HyperPod 科学家们利用 SageMaker HyperPod CLI 和原生kubectl命令来查找可用 SageMaker HyperPod 集群、提交训练作业 (Pod) 并管理其工作负载。 SageMaker HyperPod CLI 支持使用训练作业架构文件提交作业,并提供任务列表、描述、取消和执行的功能。科学家可以根据由管理的计算配额使用 Kubeflow 训练运算符 HyperPod,并由 SageMaker AI 管理 MLflow来管理 ML 实验和训练运行。