本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
HyperPod 工作室中的选项卡
在 Amazon SageMaker Studio 中,您可以导航到集群中的一个HyperPod集群(在 “计算” 下),并查看您的集群列表。显示的集群包含任务、硬件指标、设置和元数据详细信息等信息。这种可见性有助于您的团队确定适合预训练或微调工作负载的候选项。以下各部分介绍了每种类型的信息。
任务
Amazon SageMaker HyperPod 提供了您的集群任务视图。任务是发送到集群的操作或作业。它们可以是机器学习操作,例如训练、运行实验或推理。以下部分提供有关您的 HyperPod集群任务的信息。
在 Amazon SageMaker Studio 中,您可以导航到集群中的一个HyperPod集群(在 “计算” 下),并查看集群上的任务信息。如果您在查看任务时遇到任何问题,请参阅问题排查。
任务表包含:
指标
亚马逊 SageMaker HyperPod 提供您的 Slurm 或 Amazon EKS 集群利用率指标的视图。以下内容提供了有关您的 HyperPod 集群指标的信息。
您需要安装 Amazon EKS 加载项才能查看以下指标。有关更多信息,请参阅安装 Amazon CloudWatch 可观察性 EKS 附加组件。
在 Amazon SageMaker Studio 中,您可以导航到集群中的一个HyperPod集群(在 “计算” 下),并查看集群的指标详细信息。指标提供了集群利用率指标的综合性视图,包括硬件、团队和任务指标。这包括计算资源可用性和使用情况、团队分配和利用率以及任务运行和等待时间信息。
设置
Amazon SageMaker HyperPod 提供了您的集群设置视图。以下内容提供了有关您的 HyperPod 集群设置的信息。
在 Amazon SageMaker Studio 中,您可以导航到集群中的一个HyperPod集群(在 “计算” 下),并查看集群的设置信息。该信息包括:
-
实例详细信息,包括实例 ID、状态、实例类型和实例组
-
实例组详细信息,包括实例组名称、类型、计数和计算信息
-
编排详细信息,包括编排工具、版本和证书颁发机构
-
集群韧性详细信息
-
安全详细信息,包括子网络和安全组
Details
Amazon SageMaker HyperPod 提供了您的集群元数据详细信息的视图。以下段落提供了有关如何获取 HyperPod 集群详细信息的信息。
在 Amazon SageMaker Studio 中,您可以导航到集群中的一个HyperPod集群(在 “计算” 下),并查看集群的详细信息。这包括标签、日志和元数据。