在 HyperPod k8s 上运行训练作业 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 HyperPod k8s 上运行训练作业

SageMaker HyperPod Recipes 支持向 GPU/Trainium Kubernetes 集群提交训练作业。在提交训练作业之前,请执行下列操作之一:

  • 修改 k8s.yaml 集群配置文件

  • 通过命令行覆盖集群配置

完成上述任一步骤后,安装相应的环境。

使用 k8s.yaml 配置集群

要向 Kubernetes 集群提交训练作业,请指定特定于 Kubernetes 的配置。这些配置包括集群命名空间或持久性卷的位置。

pullPolicy: Always restartPolicy: Never namespace: default persistent_volume_claims: - null
  1. pullPolicy:您可以在提交训练作业时指定提取策略。如果您指定“始终”,则 Kubernetes 集群始终从存储库中提取您的映像。有关更多信息,请参阅映像提取策略

  2. restartPolicy:指定在训练作业失败时是否重启该作业。

  3. namespace:可以指定提交训练作业时所使用的 Kubernetes 命名空间。

  4. persistent_volume_claims:可以为训练作业指定共享卷,以便所有训练过程都能访问该卷中的文件。