Amazon SageMaker HyperPod 可观测性控制面板 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon SageMaker HyperPod 可观测性控制面板

本主题介绍如何查看 Amazon SageMaker HyperPod (SageMaker HyperPod) 集群的指标控制面板以及如何向控制面板添加新用户。该主题还描述了不同类型的仪表板。

访问控制面板

要在 Amazon Managed Grafana 中查看 SageMaker HyperPod 集群的指标,请执行以下步骤:

  1. 打开 Amazon A SageMaker I 控制台,网址为https://console.aws.amazon.com/sagemaker/

  2. 转到集群的详细信息页面。

  3. 在 “控制面板” 选项卡上,找到 “HyperPod 可观察性” 部分,然后选择 “在 Gra fana 中打开仪表板”。

向亚马逊托管 Grafana 工作空间添加新用户

有关如何向亚马逊托管 Grafana 工作空间添加用户的信息,请参阅亚马逊托管 Grafana 用户指南中的将 IAM 身份中心与您的亚马逊托管 Grafana 工作空间配合 Amazon 使用

可观测性仪表板

SageMaker HyperPod 可观测性插件在您的默认 Amazon Managed Grafana 工作区中提供了五个相互关联的控制面板。每个仪表板都为不同的用户(例如数据科学家、机器学习工程师和管理员)提供有关集群中不同资源和任务的深入见解。

任务控制面板

任务仪表板提供对 SageMaker HyperPod 任务资源利用率指标的全面监控和可视化。主面板显示按父任务对资源使用情况进行分组的详细表格,显示各容器之间的 CPU、GPU 和内存利用率。交互式时间序列图表可跟踪所选 pod 的 CPU 使用率、系统内存消耗、GPU 利用率百分比和 GPU 内存使用情况,使您可以监控一段时间内的性能趋势。仪表板具有强大的筛选功能,可通过集群名称、命名空间、任务类型和特定 pod 等变量进行筛选,便于深入研究特定工作负载。此监控解决方案对于优化资源分配和保持机器学习工作负载的性能至关重要 SageMaker HyperPod。

训练仪表板

训练仪表板提供对训练任务运行状况、可靠性和故障管理指标的全面监控。仪表板包含关键性能指标,包括任务创建次数、成功率和正常运行时间百分比,以及对自动和手动重启事件的详细跟踪。它通过饼图和热图提供故障模式的详细可视化,这些饼图和热图按类型和修复延迟细分事件,使您能够识别反复出现的问题并优化任务的可靠性。该接口包括对系统恢复时间和故障检测延迟等关键指标的实时监控,使其成为保持训练工作负载高可用性的必备工具。此外,仪表板的 24 小时跟踪窗口为分析训练任务绩效的趋势和模式提供了历史背景,帮助团队在潜在问题影响生产工作负载之前主动解决这些问题。

推理仪表板

推理仪表板可跨多个维度全面监控模型部署性能和运行状况指标。它详细概述了活跃部署,实时监控请求率、成功百分比和延迟指标,使您能够跟踪模型服务性能并识别潜在的瓶颈。该仪表板包括用于一般推理指标和语言模型特定于令牌的指标的专用面板,例如首次使用令牌的时间 (TTFT) 和令牌吞吐量,因此对于监控大型语言模型部署特别有价值。此外,它还通过 Pod 和节点分配跟踪提供基础设施见解,同时提供详细的错误分析功能,以帮助维持推理工作负载的高可用性和性能。

集群控制面板

集群控制面板提供集群运行状况和性能的全面视图,可实时查看您的 Amazon SageMaker HyperPod (SageMaker HyperPod) 环境中的计算、内存、网络和存储资源。通过每隔几秒钟自动更新数据的直观界面,您可以一目了然地查看关键指标,包括实例总数、GPU 利用率、内存使用率和网络性能。仪表板分为多个逻辑部分,首先是高级集群概述,显示运行状况良好的实例百分比和资源总数等关键指标,然后是 GPU 性能、内存利用率、网络统计数据和存储指标的详细部分。每个部分都包含交互式图表和面板,允许您深入了解特定的指标,包括可自定义的时间范围和按集群名称、实例或 GPU ID 筛选选项。

文件系统控制面板

文件系统控制面板可让您全面了解文件系统(Amazon for Lustre) FSx 的性能和运行状况指标。仪表板跨多个可视化显示关键存储指标,包括可用容量、重复数据删除节省量、 CPU/memory 利用率、磁盘 IOPS、吞吐量和客户端连接。它使您可以监控系统级性能指标(如 CPU 和内存使用情况)以及特定于存储的指标(例如 read/write 操作和磁盘利用率模式)。该界面包括警报监控功能和详细的时间序列图表,用于跟踪一段时间内的性能趋势,因此对于主动维护和容量规划非常有价值。此外,通过其全面的指标覆盖范围,该仪表板可帮助识别潜在的瓶颈,优化存储性能,并确保 SageMaker HyperPod 工作负载的文件系统运行可靠。