连接到 HyperPod 集群并向集群提交任务 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

连接到 HyperPod 集群并向集群提交任务

您可以在 Amazon SageMaker Studio 中的 HyperPod 集群上启动机器学习工作负载 IDEs。当您在 HyperPod 集群 IDEs 上启动 Studio 时,有一组命令可以帮助您入门。您可以在 Stu IDEs dio 中处理训练脚本、使用 Docker 容器作为训练脚本以及向集群提交作业。以下部分提供有关如何将集群连接到 Studio 的信息 IDEs。

在 Amazon SageMaker Studio 中,您可以导航到集群中的一个HyperPod集群(在 “计算” 下),并查看您的集群列表。您可以将集群连接到 “操作” 下列出的 IDE。

您也可以从选项列表中选择您的自定义文件系统。有关如何进行此设置的信息,请参阅在 Studio HyperPod 中设置

或者,您可以使用创建空间并启动 IDE Amazon CLI。使用以下命令执行此操作。以下示例在附加了 fo Private JupyterLab r Lustre 文件系统的情况下fs-id FSx 为创建了一个空间。user-profile-name

  1. 使用创建空间create-space Amazon CLI。

    aws sagemaker create-space \ --region your-region \ --ownership-settings "OwnerUserProfileName=user-profile-name" \ --space-sharing-settings "SharingType=Private" \ --space-settings "AppType=JupyterLab,CustomFileSystems=[{FSxLustreFileSystem={FileSystemId=fs-id}}]"
  2. 使用创建应用程序create-app Amazon CLI。

    aws sagemaker create-app \ --region your-region \ --space-name space-name \ --resource-spec '{"ec2InstanceType":"'"instance-type"'","appEnvironmentArn":"'"image-arn"'"}'

打开应用程序后,您可以直接向所连接的集群提交任务。