验证集群头节点上的 Prometheus 设置 HyperPod - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

验证集群头节点上的 Prometheus 设置 HyperPod

成功设置安装了导出器包的 HyperPod 集群后,请检查集群的主节点上是否正确设置 Prometheus。 HyperPod

  1. 连接到集群的主节点。有关访问节点的说明,请参见 访问您的 SageMaker HyperPod 集群节点

  2. 运行以下命令验证生命周期脚本 install_prometheus.sh 创建的 Prometheus 配置和服务文件是否在控制器节点上运行。输出结果应显示活动状态为 active (running)

    $ sudo systemctl status prometheus • prometheus service - Prometheus Exporter Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled) Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago Main PID: 12345 (prometheus) Tasks: 7 (limit: 9281) Memory: 35M CPU: 234ms CGroup: /system.slice/prometheus.service -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
  3. 按如下步骤验证 Prometheus 配置文件。输出结果必须与下面类似,三个出口程序配置了正确的计算节点 IP 地址。

    $ cat /etc/prometheus/prometheus.yml global: scrape_interval: 15s evaluation_interval: 15s scrape_timeout: 15s scrape_configs: - job_name: 'slurm_exporter' static_configs: - targets: - 'localhost:8080' - job_name: 'dcgm_exporter' static_configs: - targets: - '<ComputeNodeIP>:9400' - '<ComputeNodeIP>:9400' - job_name: 'efa_node_exporter' static_configs: - targets: - '<ComputeNodeIP>:9100' - '<ComputeNodeIP>:9100' remote_write: - url: <AMPReoteWriteURL> queue_config: max_samples_per_send: 1000 max_shards: 200 capacity: 2500 sigv4: region: <Region>
  4. 要测试 Prometheus 是否正确导出 Slurm、DCGM 和 EFA 指标,请在主节点的 :9090 端口为 Prometheus 运行以下 curl 命令。

    $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'

    通过控制器节点的 Prometheus 远程写入配置将指标导出到 Amazon Managed Service for Prometheus Workspace 后,您就可以进入下一个主题,设置 Amazon Managed Grafana 面板来显示指标。