查看训练计划详细信息 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

查看训练计划详细信息

要监控训练计划的状态或检索其详细信息,您可以使用 DescribeTrainingPlan API。API 响应包含一个 Status 字段,该字段反映了训练计划的当前状态:

  • 如果计划购买失败,状态将设置为 Failed

  • 成功付款后,根据计划的开始日期,状态会从 Pending 过渡到 Scheduled

  • 当计划到达其开始日期时,状态会变为 Active

  • 对于包含多个不连续预留容量的计划,其状态会在活跃期之间恢复为 Scheduled 状态,直至下一个预留容量的开始日期。

  • 计划结束日期后,状态会变为 Expired

状态变为后Scheduled,您可以将计划中预留的容量用于 SageMaker 训练作业或 HyperPod 集群工作负载。

注意
  • 在计划变为 Active 之前,与计划关联的训练作业将保持 Pending 状态。

  • 对于使用计算容量训练计划的 HyperPod 集群,实例组的状态显示为已InService创建。

以下示例使用Amazon CLI命令按名称检索训练计划的详细信息。

aws sagemaker describe-training-plan \ --training-plan-name "name"

此 JSON 文档是来自 SageMaker 训练计划 API 的示例响应。该响应提供了有关已成功创建的训练计划的详细信息。

{ "AvailableInstanceCount": 2, "CurrencyCode": "USD", "DurationHours": 48, "DurationMinutes": 0, "EndTime": "2024-09-28T04:30:00-07:00", "InUseInstanceCount": 2, "ReservedCapacitySummaries": [ { "AvailabilityZone": "string", "DurationHours": 48, "DurationMinutes": 0, "EndTime": "2024-09-28T04:30:00-07:00", "InstanceType": "ml.p5.48xlarge", "ReservedCapacityArn": "arn:aws:sagemaker:us-east-1:123456789123:reserved-capacity/large-models-fine-tuning-rc1", "StartTime": "2024-09-26T04:30:00-07:00", "Status": "Scheduled", "TotalInstanceCount": 4, "UltraServerCount": 4, "UltraServerType": "ml.p6e-gb200.36xlarge" } ], "StartTime": "2024-09-26T04:30:00-07:00", "Status": "Scheduled", "StatusMessage": "Payment confirmed, training plan scheduled." "TargetResources": [ "training-job" ], "TotalInstanceCount": 4, "TotalUltraServerCount": 4, "TrainingPlanArn": "arn:aws:sagemaker:us-east-1:123456789123:training-plan/large-models-fine-tuning", "TrainingPlanName": "large-models-fine-tuning", "UpfrontFee": "xxxx.xx" }

以下各部分定义了 DescribeTrainingPlan API 操作的必需输入请求参数。

必需参数

  • TrainingPlanName:要描述的训练计划的名称。