SageMaker HyperPod 集群管理 - Amazon SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

SageMaker HyperPod 集群管理

以下主题讨论了记录和管理 SageMaker HyperPod 集群。

记录 SageMaker HyperPod 事件

SageMaker HyperPod 的所有事件和日志都会保存到 Amazon CloudWatch,日志组名称为 /aws/sagemaker/Clusters/[ClusterName]/[ClusterID]。每次调用 CreateCluster API 都会创建一个新的日志组。以下列表包含每个日志组收集的所有可用日志流。

日志组名称 日志流名称
/aws/sagemaker/Clusters/[ClusterName]/[ClusterID] LifecycleConfig/[instance-group-name]/[instance-id]

在实例级记录 SageMaker HyperPod

您可以在集群实例配置过程中访问发布到 CloudWatch 的 LifecycleScript 日志。创建的集群中的每个实例都会生成单独的日志流,以 LifecycleConfig/[instance-group-name]/[instance-id] 格式区分。

所有写入 /var/log/provision/provisioning.log 的日志都会上载到前面的 CloudWatch 流中。位于 1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-config 的示例 LifecycleScripts 会将其 stdoutstderr 重定向到此位置。如果您使用的是自定义脚本,请将日志写入 /var/log/provision/provisioning.log 位置,以便 CloudWatch 提供这些日志。

为资源添加标签

Amazon 标记有助于管理、识别、组织、搜索和筛选资源。SageMaker HyperPod 支持标记,因此您可以将集群作为 Amazon 资源管理。在创建集群或编辑现有集群期间,您可以为集群添加或编辑标签。要了解有关标记的更多一般信息,请参阅标记 Amazon 资源

使用 SageMaker HyperPod 管理控制台用户界面

创建新集群编辑集群时,您可以添加、删除或编辑标签。

使用 SageMaker HyperPod API

当您以 JSON 格式编写 CreateClusterUpdateCluster API 请求文件时,请编辑 Tags 部分。

使用 SageMaker AI 的 Amazon CLI 标记命令

要标记一个集群

按如下方式使用 aws sagemaker add-tags

aws sagemaker add-tags --resource-arn cluster_ARN --tags Key=string,Value=string

要取消标记一个集群

按如下方式使用 aws sagemaker delete-tags

aws sagemaker delete-tags --resource-arn cluster_ARN --tag-keys "tag_key"

列出资源的标签

按如下方式使用 aws sagemaker list-tags

aws sagemaker list-tags --resource-arn cluster_ARN