HyperPod 工作室中的选项卡 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

HyperPod 工作室中的选项卡

在 Amazon SageMaker Studio 中,您可以导航到集群中的一个HyperPod集群(在 “计算” 下),并查看您的集群列表。显示的集群包含任务、硬件指标、设置和元数据详细信息等信息。这种可见性有助于您的团队确定适合预训练或微调工作负载的候选项。以下各部分介绍了每种类型的信息。

任务

Amazon SageMaker HyperPod 提供了您的集群任务视图。任务是发送到集群的操作或作业。它们可以是机器学习操作,例如训练、运行实验或推理。以下部分提供有关您的 HyperPod集群任务的信息。

在 Amazon SageMaker Studio 中,您可以导航到集群中的一个HyperPod集群(在 “计算” 下),并查看集群上的任务信息。如果您在查看任务时遇到任何问题,请参阅问题排查

任务表包含:

For Slurm clusters

对于 Slurm 集群,当前处于 Slurm 作业调度器队列中的任务会显示在该表中。为每个任务显示的信息包括任务名称、状态、作业 ID、分区、运行时间、节点、创建者和操作。

有关过去作业的列表和详细信息,请使用中的sacct命令 JupyterLab或代码编辑器终端。sacct 命令用于查看系统中已结束已完成的作业的历史信息。它可提供记账信息,包括作业资源使用情况(如内存使用量)以及退出状态。

默认情况下,所有 Studio 用户都可查看、管理所有可用的 Slurm 任务并与之交互。要将可查看的任务设置为仅对 Studio 用户可见,请参阅在 Studio 中限制 Slurm 集群的任务视图

For Amazon EKS clusters

对于 Amazon EKS 集群,kubeflow (PyTorch、MPI、 TensorFlow) 任务显示在表中。 PyTorch 默认情况下会显示任务。您可以在 “任务类型” PyTorch、“MPI” 和 TensorFlow “任务类型” 下进行排序。为每个任务显示的信息包括任务名称、状态、命名空间、优先级类别和创建时间。

默认情况下,所有用户都可以查看所有命名空间中的作业。要将可查看的 Kubernetes 命名空间设置为仅对 Studio 用户可用,请参阅在 Studio 中限制 EKS 集群的任务视图。如果一个用户无法查看任务并且需要提供命名空间,则该用户需要从管理员处获取该信息。

指标

亚马逊 SageMaker HyperPod 提供您的 Slurm 或 Amazon EKS 集群利用率指标的视图。以下内容提供了有关您的 HyperPod 集群指标的信息。

您需要安装 Amazon EKS 加载项才能查看以下指标。有关更多信息,请参阅安装 Amazon CloudWatch 可观察性 EKS 附加组件

在 Amazon SageMaker Studio 中,您可以导航到集群中的一个HyperPod集群(在 “计算” 下),并查看集群的指标详细信息。指标提供了集群利用率指标的综合性视图,包括硬件、团队和任务指标。这包括计算资源可用性和使用情况、团队分配和利用率以及任务运行和等待时间信息。

设置

Amazon SageMaker HyperPod 提供了您的集群设置视图。以下内容提供了有关您的 HyperPod 集群设置的信息。

在 Amazon SageMaker Studio 中,您可以导航到集群中的一个HyperPod集群(在 “计算” 下),并查看集群的设置信息。该信息包括:

  • 实例详细信息,包括实例 ID、状态、实例类型和实例组

  • 实例组详细信息,包括实例组名称、类型、计数和计算信息

  • 编排详细信息,包括编排工具、版本和证书颁发机构

  • 集群韧性详细信息

  • 安全详细信息,包括子网络和安全组

Details

Amazon SageMaker HyperPod 提供了您的集群元数据详细信息的视图。以下段落提供了有关如何获取 HyperPod 集群详细信息的信息。

在 Amazon SageMaker Studio 中,您可以导航到集群中的一个HyperPod集群(在 “计算” 下),并查看集群的详细信息。这包括标签、日志和元数据。