在集群的头节点上验证 Prometheus 设置 HyperPod - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在集群的头节点上验证 Prometheus 设置 HyperPod

成功设置安装了导出器包的 HyperPod 集群后,请检查集群的主节点上是否正确设置了 Prometheus。 HyperPod

  1. Connect 连接到集群的主节点。有关访问节点的说明,请参阅访问您的 SageMaker HyperPod集群节点

  2. 运行以下命令以验证生命周期install_prometheus.sh脚本创建的 Prometheus 配置和服务文件是否在控制器节点上运行。输出应将 “活动” 状态显示为active (running)

    $ sudo systemctl status prometheus • prometheus service - Prometheus Exporter Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled) Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago Main PID: 12345 (prometheus) Tasks: 7 (limit: 9281) Memory: 35M CPU: 234ms CGroup: /system.slice/prometheus.service -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
  3. 按如下方式验证 Prometheus 配置文件。输出必须与以下内容类似,三个导出器配置了正确的计算节点 IP 地址。

    $ cat /etc/prometheus/prometheus.yml global: scrape_interval: 15s evaluation_interval: 15s scrape_timeout: 15s scrape_configs: - job_name: 'slurm_exporter' static_configs: - targets: - 'localhost:8080' - job_name: 'dcgm_exporter' static_configs: - targets: - '<ComputeNodeIP>:9400' - '<ComputeNodeIP>:9400' - job_name: 'efa_node_exporter' static_configs: - targets: - '<ComputeNodeIP>:9100' - '<ComputeNodeIP>:9100' remote_write: - url: <AMPReoteWriteURL> queue_config: max_samples_per_send: 1000 max_shards: 200 capacity: 2500 sigv4: region: <Region>
  4. 要测试 Prometheus 是否正确导出 Slurm、DCGM 和 EFA 指标,请在头节点的端口上为 Prometheus 运行以下curl命令。:9090

    $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'

    通过控制器节点的 Prometheus 远程写入配置将指标导出到亚马逊 Prometheus Workspace 托管服务后,您可以继续下一个主题,设置亚马逊托管 Grafana 控制面板来显示指标。