通过亚马逊托管 Grafana 和适用于 Prometheus 的亚马逊托管服务实现亚马逊 SageMaker HyperPod的可观察性 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

通过亚马逊托管 Grafana 和适用于 Prometheus 的亚马逊托管服务实现亚马逊 SageMaker HyperPod的可观察性

Amazon SageMaker HyperPod (SageMaker HyperPod) 提供了一个全面的 out-of-the-box控制面板,可让您深入了解基础模型 (FM) 开发任务和集群资源。这个统一的可观察性解决方案会自动将关键指标发布到适用于 Prometheus 的亚马逊托管服务,并将其显示在亚马逊托管 Grafana 控制面板中。仪表板专为 FM 开发进行了优化,深入涵盖了硬件运行状况、资源利用率和任务级性能。使用此插件,您可以整合来自 NVIDIA DCGM、实例级 Kubernetes 节点导出器、Elastic Fabric Adapter、集成文件系统、Kubernetes、K APIs ueue 和任务操作员的运行状况和性能数据。 SageMaker HyperPod