View a markdown version of this page

通过亚马逊托管 Grafana 和适用于 Prometheus 的亚马逊托管服务实现亚马逊 SageMaker HyperPod 的可观察性 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

通过亚马逊托管 Grafana 和适用于 Prometheus 的亚马逊托管服务实现亚马逊 SageMaker HyperPod 的可观察性

Amazon SageMaker HyperPod (SageMaker HyperPod) 提供了一个全面的 out-of-the-box控制面板,可让您深入了解基础模型 (FM) 开发任务和集群资源。此统一的可观测性解决方案会自动将关键指标发布到 Amazon Managed Service for Prometheus,并在 Amazon Managed Grafana 控制面板中展示这些指标。这些控制面板已专门针对基础模型开发进行优化,深度覆盖了硬件运行状况、资源利用率以及任务级性能。使用此附加组件,您可以整合来自 NVIDIA DCGM、实例级 Kubernetes 节点导出器、Elastic Fabric Adapter、集成文件系统、Kubernetes、K APIs ueue 和任务操作员的运行状况和性能数据。 SageMaker HyperPod

受限实例组 (RIG) 支持

可观察性插件还支持包含受限实例组的集群。在 RIG 集群中,插件会自动调整其部署策略,以符合受限节点的网络隔离和安全限制。 DaemonSet 组件(节点导出器、DCGM 导出器、EFA 导出器、神经元监视器和节点收集器)在标准节点和受限节点上运行。部署组件(中央收集器、Kube 状态指标和训练指标代理)采用边界感知逻辑进行调度,以尊重实例组之间的网络隔离。使用 Fluent Bit 收集容器日志在受限节点上不可用。

有关在具有受限实例组的集群上设置插件的信息,请参阅设置可 SageMaker HyperPod 观测性插件