由 Amazon EK SageMaker HyperPod S 编排的集群的可观察性 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

由 Amazon EK SageMaker HyperPod S 编排的集群的可观察性

要实现 SageMaker HyperPod 集群资源和软件组件的全面可观察性,请将集群与 A CloudWatch mazon Container Insights适用于 Prometheus 的亚马逊托管服务和亚马逊托管 Grafana 集成。这些工具提供对集群运行状况、性能指标和资源利用率的可见性。

通过与 Amazon Prometheus 托管服务的集成,可以导出与 HyperPod您的集群资源相关的指标,从而深入了解其性能、利用率和运行状况。与 Amazon Managed Grafana 集成后,可以通过各种 Grafana 控制面板实现这些指标的可视化,为监控和分析集群行为提供直观的界面。通过利用这些服务,您可以获得 HyperPod 集群的集中统一视图,从而便于对分布式训练工作负载进行主动监控、故障排除和优化。

注意

虽然 CloudWatch适用于 Prometheus 的亚马逊托管服务和 Amazon Managed Grafana 侧重于运营指标(例如系统运行状况、培训作业绩效 SageMaker HyperPod ),但使用报告补充了任务治理,提供了财务和资源责任见解。这些报告追踪:

  • 计算利用率 (GPU/CPU/Neuron Core hours) across namespaces/teams

  • 分配资源与借用资源的成本归因

  • 用于审计和优化的历史趋势(最长 180 天)

有关设置和生成使用情况报告的更多信息,请参阅中的报告计算使用情况 HyperPod

提示

要查找实际示例和解决方案,另请参阅 Amazon EKS Support SageMaker HyperPod 研讨会中的可观察性部分。

继续阅读以下主题以设置 SageMaker HyperPod 集群可观测性。