本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在 HyperPod 集群上安装指标导出器包
在基本配置中,该 SageMaker HyperPod 团队提供的生命周期脚本还包括安装各种指标导出器包。要激活安装步骤,您只需在config.py
enable_observability=True
中设置参数即可。生命周期脚本旨在使用以下开源指标导出器包引导您的集群。
名称 | 脚本部署目标节点 | 出口商描述 |
Prometheus 的 Slurm 出口商 |
头(控制器)节点 |
导出 Slurm 会计指标。 |
计算节点 |
从集群节点和 EFA 导出指标。该软件包是 Prometheus |
|
计算节点 |
导出有关 NVIDIA GPU 运行状况和性能的 NVIDIA DCGM 指标。 |
enable_observability=True
在config.py
lifecycle_script.py
# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()
在计算节点上,该脚本会安装 NVIDIA 数据中心 GPU 管理 (DCGM) 导出器和 Elastic Fabric Adapter (EFA) 节点导出器。DCGM 导出器是 Prometheus 的导出器,它从 NVIDIA GPU 收集指标,从而可以监控 GPU 的使用情况、性能和运行状况。另一方面,EFA 节点导出器收集与 EFA 网络接口相关的指标,这对 HPC 集群中的低延迟和高带宽通信至关重要。
在头节点上,该脚本安装了 Prometheus 的 Slurm 导出器和 Prometheus 开源软件。
请注意,生命周期脚本旨在将所有导出器包安装为 docker 容器,因此 Docker 包也应安装在头节点和计算节点上。这些组件的脚本可以方便地在 Awsome Distributed Training GitHub 存储库的utils
成功设置安装了导出器包的 HyperPod 集群后,请继续阅读下一个主题,完成针对 Prometheus 和 Amazon Managed Grafana 的亚马逊托管服务的设置。