在上创建 Slurm 集群之前验证JSON配置文件 HyperPod - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在上创建 Slurm 集群之前验证JSON配置文件 HyperPod

要在提交集群创建请求之前验证JSON配置文件,请使用配置验证脚本validate-config.py。该脚本解析并比较您的 HyperPod 集群配置JSON文件和 Slurm 配置JSON文件,并确定这两个文件之间以及亚马逊、EC2亚马逊VPC和亚马逊资源之间是否存在任何资源配置错误。FSx例如,要验证从提供的基本生命周期脚本开始 HyperPod部分中的create_cluster.jsonprovisioning_parameters.json文件,请按如下方式运行验证脚本。

python3 validate-config.py --cluster-config create_cluster.json --provisioning-parameters provisioning_parameters.json

以下是成功验证的输出示例。

✔️ Validated instance group name worker-group-1 is correct ... ✔️ Validated subnet subnet-012345abcdef67890 ... ✔️ Validated security group sg-012345abcdef67890 ingress rules ... ✔️ Validated security group sg-012345abcdef67890 egress rules ... ✔️ Validated FSx Lustre DNS name fs-012345abcdef67890.fsx.us-east-1.amazonaws.com ✔️ Validated FSx Lustre mount name abcdefgh ✅ Cluster Validation succeeded