本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
通过亚马逊托管 Grafana 和适用于 Prometheus 的亚马逊托管服务实现亚马逊 SageMaker HyperPod的可观察性
Amazon SageMaker HyperPod (SageMaker HyperPod) 提供了一个全面的 out-of-the-box控制面板,可让您深入了解基础模型 (FM) 开发任务和集群资源。此统一的可观测性解决方案会自动将关键指标发布到 Amazon Managed Service for Prometheus,并在 Amazon Managed Grafana 控制面板中展示这些指标。这些控制面板已专门针对基础模型开发进行优化,深度覆盖了硬件运行状况、资源利用率以及任务级性能。使用此附加组件,您可以整合来自 NVIDIA DCGM、实例级 Kubernetes 节点导出器、Elastic Fabric Adapter、集成文件系统、Kubernetes、K APIs ueue 和任务操作员的运行状况和性能数据。 SageMaker HyperPod