SageMaker HyperPod 参考文献 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker HyperPod 参考文献

在以下主题 SageMaker HyperPod 中查找有关使用的更多信息和参考资料。

SageMaker HyperPod 定价

以下主题提供有关 SageMaker HyperPod 定价的信息。要了解有关使用 SageMaker HyperPod 实例的每小时价格的更多详细信息,另请参阅 Amazon SageMaker 定价

容量请求

您可以分配按需计算容量或预留计算容量, SageMaker 以便在上使用 SageMaker HyperPod。按需创建集群会从按 SageMaker需容量池中分配可用容量。或者,您可以通过提交请求增加配额的票证来申请预留容量以确保访问权限。入站容量请求按优先顺序排列 SageMaker ,您将收到容量分配的估计时间。

服务账单

当您在上配置计算容量时 SageMaker HyperPod,您需要为容量分配的持续时间付费。 SageMaker HyperPod 账单显示在您的周年账单中,其中包含容量分配类型(按需、预留)、实例类型和使用实例所花费的时间的行项目。

要提交提高配额的工单,请参阅SageMaker HyperPod 配额

SageMaker HyperPod API

以下列表是一整套 SageMaker HyperPod API,用于 SageMaker 通过 Amazon CLI 或以 JSON 格式提交操作请求 Amazon SDK for Python (Boto3)。

SageMaker HyperPod 表格

要配置 Slurm 工作负载管理器工具 HyperPod,应 HyperPod 使用提供的表单创建所需的 Slurm 配置文件。

用于在上配置 Slurm 节点的配置表 HyperPod

以下代码是 Slurm 配置表单,你应该准备好在集群上正确设置 Slurm 节点。 HyperPod 您应该填写此表单,并在集群创建期间将其作为一组生命周期脚本的一部分上传。要了解在整个 HyperPod 集群创建过程中应如何准备此表单,请参阅SageMaker HyperPod 生命周期配置最佳实践

// Save as provisioning_params.json. { "version": "1.0.0", "workload_manager": "slurm", "controller_group": "string", "login_group": "string", "worker_groups": [ { "instance_group_name": "string", "partition_name": "string" } ], "fsx_dns_name": "string", "fsx_mountname": "string" }
  • version – 必需。这是 HyperPod配置参数表单的版本。保持不变1.0.0

  • workload_manager – 必需。这是为了指定要在 HyperPod 集群上配置哪个工作负载管理器。保持不变slurm

  • controller_group – 必需。这是为了指定要分配给 Slurm 控制器(头)节点的 HyperPod 集群实例组的名称。

  • login_group:可选。这是为了指定要分配给 Slurm 登录节点的 HyperPod 集群实例组的名称。

  • worker_groups – 必需。这用于在集群上设置 Slurm 工作节点(计算)。 HyperPod

    • instance_group_name – 必需。这是为了指定要分配给 Slurm worker(计算)节点的 HyperPod 实例组的名称。

    • partition_name – 必需。这是为了指定节点的分区名称。

  • fsx_dns_name:可选。如果您想在 HyperPod 集群上设置 Slurm 节点以与 Amazon FSx 通信,请指定 FSx 的 DNS 名称。

  • fsx_mountname:可选。如果您想在 HyperPod 集群上设置 Slurm 节点以与 Amazon FSx 通信,请指定 FSx 挂载名称。

SageMaker HyperPod DLAMI

SageMaker HyperPod 代理运行 SageMaker HyperPod DLAMI,它建立在深度学习基础 GPU AMI(Ubuntu 20.04)Amazon 之上。

SageMaker HyperPod DLAMI 捆绑了其他软件包,用于支持 Slurm 和依赖项等开源工具,以及支持集群运行状况检查 SageMaker HyperPod 和自动恢复等功能的集群软件包。要跟进 HyperPod 服务团队通过 DLAMI 分发的 HyperPod 软件更新,请参阅。Amazon SageMaker HyperPod 发行说明

SageMaker HyperPod API 权限参考

重要

允许 Amazon SageMaker Studio 或 Amazon SageMaker Studio Classic 创建亚马逊 SageMaker资源的自定义 IAM 策略还必须授予向这些资源添加标签的权限。需要向资源添加标签的权限,因为 Studio 和 Studio Classic 会自动标记他们创建的任何资源。如果 IAM 策略允许 Studio 和 Studio Classic 创建资源但不允许标记,则在尝试创建资源时可能会出现 AccessDenied “” 错误。有关更多信息,请参阅 提供为资源添加标签 SageMaker的权限

Amazon 适用于亚马逊的托管政策 SageMaker授予创建 SageMaker 资源的权限已经包括在创建这些资源时添加标签的权限。

当您设置访问控制以允许运行 SageMaker HyperPod API 操作并编写可附加到 IAM 用户以供云管理员使用的权限策略时,请使用下表作为参考。

亚马逊 SageMaker API 操作 所需权限 (API 操作) 资源
CreateCluster sagemaker:CreateCluster arn:aws:sagemaker:region:account-id:cluster/cluster-id
DeleteCluster sagemaker:DeleteCluster arn:aws:sagemaker:region:account-id:cluster/cluster-id
DescribeCluster sagemaker:DescribeCluster arn:aws:sagemaker:region:account-id:cluster/cluster-id
DescribeClusterNode sagemaker:DescribeClusterNode arn:aws:sagemaker:region:account-id:cluster/cluster-id
ListClusterNodes sagemaker:ListClusterNodes arn:aws:sagemaker:region:account-id:cluster/cluster-id
ListClusters sagemaker:ListClusters arn:aws:sagemaker:region:account-id:cluster/cluster-id
UpdateCluster sagemaker:UpdateCluster arn:aws:sagemaker:region:account-id:cluster/cluster-id
UpdateClusterSoftware sagemaker:UpdateClusterSoftware arn:aws:sagemaker:region:account-id:cluster/cluster-id

有关 SageMaker API 权限和资源类型的完整列表,请参阅《Amazon 服务授权参考》 SageMaker中的 Amazon 操作、资源和条件密钥

SageMaker HyperPod 中的命令 Amazon CLI

以下是用于 SageMaker HyperPod 运行核心 HyperPod API 操作的 Amazon CLI 命令。

SageMaker HyperPod 中的 Python 模块 Amazon SDK for Python (Boto3)

以下是 Amazon SDK for Python (Boto3) 客户端运行核心 HyperPod API 操作的方法。 SageMaker