集群和任务的可观察性 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

集群和任务的可观察性

监控 SageMaker HyperPod 集群有两个选项:

SageMaker HyperPod 可观测性插件 — SageMaker HyperPod 提供全面的 out-of-the-box仪表板,可让您深入了解基础模型 (FM) 开发任务和集群资源。这个统一的可观察性解决方案会自动将关键指标发布到适用于 Prometheus 的亚马逊托管服务,并将其显示在亚马逊托管 Grafana 控制面板中。仪表板专为 FM 开发进行了优化,深入涵盖了硬件运行状况、资源利用率和任务级性能。使用此插件,您可以整合来自 NVIDIA DCGM、实例级 Kubernetes 节点导出器、Elastic Fabric Adapter、集成文件系统、Kubernetes、K APIs ueue 和任务操作员的运行状况和性能数据。 SageMaker HyperPod

Amazon CloudWatch Ins CloudWatch ights — Amazon Insights 收集计算资源的指标,例如 CPU、内存、磁盘和网络。Container Insights 还提供诊断信息(如容器重新启动失败),以帮助您查明问题并快速解决问题。您还可以对容器洞察收集的指标设置 CloudWatch 警报。