在 HyperPod 集群上安装指标导出器包 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 HyperPod 集群上安装指标导出器包

基本配置中,该 SageMaker HyperPod 团队提供的生命周期脚本还包括安装各种指标导出器包。要激活安装步骤,您只需在config.py文件enable_observability=True中设置参数即可。生命周期脚本旨在使用以下开源指标导出器包引导您的集群。

名称 脚本部署目标节点 出口商描述
Prometheus 的 Slurm 出口商 头(控制器)节点

导出 Slurm 会计指标。

Elastic Fabric Adapter (EFA) 节点导出器

计算节点

从集群节点和 EFA 导出指标。该软件包是 Prometheus 节点导出器的分支。

NVIDIA 数据中心 GPU 管理 (DCGM) 导出器

计算节点

导出有关 NVIDIA GPU 运行状况和性能的 NVIDIA DCGM 指标。

enable_observability=Trueconfig.py文件中,将在lifecycle_script.py脚本中激活以下安装步骤。

# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()

在计算节点上,该脚本会安装 NVIDIA 数据中心 GPU 管理 (DCGM) 导出器和 Elastic Fabric Adapter (EFA) 节点导出器。DCGM 导出器是 Prometheus 的导出器,它从 NVIDIA GPU 收集指标,从而可以监控 GPU 的使用情况、性能和运行状况。另一方面,EFA 节点导出器收集与 EFA 网络接口相关的指标,这对 HPC 集群中的低延迟和高带宽通信至关重要。

在头节点上,该脚本安装了 Prometheus 的 Slurm 导出器和 Prometheus 开源软件。Slurm 导出器为 Prometheus 提供了与 Slurm 作业、分区和节点状态相关的指标。

请注意,生命周期脚本旨在将所有导出器包安装为 docker 容器,因此 Docker 包也应安装在头节点和计算节点上。这些组件的脚本可以方便地在 Awsome Distributed Training GitHub 存储库utils文件夹中提供。

成功设置安装了导出器包的 HyperPod 集群后,请继续阅读下一个主题,完成针对 Prometheus 和 Amazon Managed Grafana 的亚马逊托管服务的设置。