本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
生成报告
本指南提供 step-by-step有关配置和管理 SageMaker HyperPod 集群使用情况报告的说明。按照以下步骤部署基础架构,生成自定义报告,并在不再需要时移除资源。
设置使用情况报告
注意
在 SageMaker HyperPod 集群中配置 SageMaker HyperPod 使用情况报告基础设施之前,请确保您已满足本文中详述的所有先决条件README.md
中的使用情况报告 HyperPod 需要:
-
SageMaker HyperPod 使用 Amazon CloudFormation 堆栈部署使用情况报告 Amazon 资源
-
通过 Helm 图表安装 SageMaker HyperPod 使用情况报告 Kubernetes 运算符
您可以在SageMaker HyperPod 使用情况报告 GitHub 存储库
按需生成使用情况报告
安装使用情况报告基础设施和 Kubernetes 操作员后, SageMaker HyperPod 集群的任务数据将自动收集并存储在您在设置期间配置的 S3 存储桶中。操作员在后台持续捕获详细的使用指标,在您指定的 S3 存储桶的raw
目录中创建原始数据文件。
要生成按需使用情况报告,您可以使用使用情况报告 GitHub 存储库run.py
脚本来提取和导出使用情况指标。具体而言,您可以在 “生成报告” 部分找到生成报告的脚本和全面说明。
该脚本允许您:
-
为报告生成指定自定义日期范围
-
在详细报告类型和摘要报告类型之间进行选择
-
以 CSV 或 PDF 格式导出报告
-
将报告定向到特定的 S3 地点
清理使用情况报告资源
当您不再需要 SageMaker HyperPod 使用情况报告基础设施时,请按照清理资源中的步骤清理