本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在 Amazon EKS 编排的 SageMaker HyperPod 集群上运行作业
以下主题提供了在使用 Amazon EKS 编排的预配置 SageMaker HyperPod 集群上访问计算节点和运行机器学习工作负载的过程和示例。根据您在集群上设置环境的方式,有多种方法可以在 HyperPod 集 HyperPod 群上运行 ML 工作负载。
注意
通过 SageMaker HyperPod CLI 或 kubectl 运行作业时, HyperPod 可以跨命名空间(团队)跟踪计算利用率(GPU/CPU 小时数)。这些指标用电量报告提供:
-
了解已分配资源与借用资源消耗情况
-
用于审计的团队资源利用率(最长 180 天)
-
成本归因与任务治理政策保持一致
要使用使用情况报告,必须安装使用情况报告基础架构。我们强烈建议配置任务治理,以强制执行计算配额并启用精细的成本归因。
有关设置和生成使用情况报告的更多信息,请参阅中的报告计算使用情况 HyperPod。
提示
要获得有关如何设置和使用由 Amazon EKS 编排的 SageMaker HyperPod 集群的实践经验和指导,我们建议您参加此次研讨会 Amazon EKS Su ppor
数据科学家用户可以使用 EKS 集群集作为集群的协调器来训练基础模型。 SageMaker HyperPod 科学家们利用 SageMaker HyperPod CLIkubectl
命令来查找可用 SageMaker HyperPod 集群、提交训练作业 (Pod) 并管理其工作负载。 SageMaker HyperPod CLI 支持使用训练作业架构文件提交作业,并提供任务列表、描述、取消和执行的功能。科学家可以根据由管理的计算配额使用 Kubeflow 训练运算符