本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在 HyperPod k8s 上运行训练作业
SageMaker HyperPod Recipes 支持向 GPU/Trainium Kubernetes 集群提交训练作业。在提交训练作业之前,请执行下列操作之一:
-
修改
k8s.yaml集群配置文件 -
通过命令行覆盖集群配置
完成上述任一步骤后,安装相应的环境。
使用 k8s.yaml 配置集群
要向 Kubernetes 集群提交训练作业,请指定特定于 Kubernetes 的配置。这些配置包括集群命名空间或持久性卷的位置。
pullPolicy: Always restartPolicy: Never namespace: default persistent_volume_claims: - null
-
pullPolicy:您可以在提交训练作业时指定提取策略。如果您指定“始终”,则 Kubernetes 集群始终从存储库中提取您的映像。有关更多信息,请参阅映像提取策略。 -
restartPolicy:指定在训练作业失败时是否重启该作业。 -
namespace:可以指定提交训练作业时所使用的 Kubernetes 命名空间。 -
persistent_volume_claims:可以为训练作业指定共享卷,以便所有训练过程都能访问该卷中的文件。