下载调 SageMaker 试器分析报告 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

下载调 SageMaker 试器分析报告

使用 Amaz SageMaker on Python SDK 和 Amazon Command Line Interface (CLI) 在训练作业运行时或任务完成后下载 SageMaker 调试器分析报告。

注意

要获取 SageMaker Debugger 生成的分析报告,必须使用 Deb SageMaker ugger 提供的内置ProfilerReport规则。要在训练作业中激活规则,请参阅配置内置探查器规则

提示

您也可以在 SageMaker Studio Debugger 见解控制面板中单击一下即可下载报告。此操作不需要编写任何额外的脚本即可下载报告。要了解如何从 Studio 下载报告,请参阅打开 Amazon SageMaker 调试器见解控制面板

Download using SageMaker Python SDK and Amazon CLI
  1. 检查当前作业的默认 S3 输出基础URI。

    estimator.output_path
  2. 检查当前作业名称。

    estimator.latest_training_job.job_name
  3. Debugger 分析报告存储在 <default-s3-output-base-uri>/<training-job-name>/rule-output。如下所示配置规则输出路径:

    rule_output_path = estimator.output_path + estimator.latest_training_job.job_name + "/rule-output"
  4. 要检查报告是否已生成,请在 rule_output_path 下,使用 aws s3 ls 以及 --recursive 选项递归列出目录和文件。

    ! aws s3 ls {rule_output_path} --recursive

    这应返回名为 ProfilerReport-1234567890 的自动生成文件夹下的文件完整列表。文件夹名称是字符串的组合:ProfilerReport和一个唯一的 10 位数标签,该标签基于 ProfilerReport 规则启动时的 Unix 时间戳。

    规则输出示例

    profiler-report.html 是 Debugger 自动生成的分析报告。其余文件是存储在中的内置规则分析组件JSON和用于将它们聚合到报告中的 Jupyter 笔记本。

  5. 使用 aws s3 cp 递归下载文件。以下命令将所有规则输出文件保存到 ProfilerReport-1234567890 文件夹下的当前工作目录中。

    ! aws s3 cp {rule_output_path} ./ --recursive
    提示

    如果您使用 Jupyter 笔记本服务器,请运行 !pwd 来仔细检查当前的工作目录。

  6. /ProfilerReport-1234567890/profiler-output 目录下,打开 profiler-report.html。如果使用 JupyterLab,请选择 Trust HTML 以查看自动生成的调试器分析报告。

    规则输出示例
  7. 打开 profiler-report.ipynb 文件以浏览报告的生成方式。您还可以使用 Jupyter 笔记本文件自定义和扩展分析报告。

Download using Amazon S3 Console
  1. 登录 Amazon Web Services Management Console 并打开 Amazon S3 控制台,网址为https://console.aws.amazon.com/s3/

  2. 搜索基本 S3 存储桶。例如,如果您尚未指定任何基本作业名称,则基本 S3 存储桶名称应采用以下格式:sagemaker-<region>-111122223333。通过按名称查找存储桶字段,查找基本 S3 存储桶。

    规则输出示例 S3 存储桶 URI
  3. 在基本 S3 存储桶中,通过在按前缀查找对象输入字段中指定您的作业名称前缀,来查找训练作业名称。选择训练作业名称。

    规则输出示例 S3 存储桶 URI
  4. 在训练作业的 S3 存储桶中,对于 Debugger 收集的训练数据,必须要有三个子文件夹:debug-output/profiler-output/rule-output/。选择 rule-output/

    规则输出示例 S3 存储桶 URI
  5. rule-output/ 文件夹中,选择-ProfilerReport 1234567890,然后选择 profiler- output/ 文件夹。p rofiler-output/ 文件夹包含 profiler-report.html(在 html 中自动生成的分析报告)、p rofiler-report.ipynb(带有用于生成报告的脚本的 Jupyter 笔记本)和一个 p rofiler-report/ 文件夹(包含用作报告组成部分的规则分析文件)。JSON

  6. 选择 profiler-report.html 文件,然后依次选择操作下载

    规则输出示例 S3 存储桶 URI
  7. 在 Web 浏览器中打开已下载的 profiler-report.html 文件。

注意

如果您在没有配置特定于 Debugger 参数的情况下启动训练作业,则 Debugger 仅根据系统监控规则生成报告,因为 Debugger 参数未配置为保存框架指标。要启用框架指标分析并接收扩展的调试器分析报告,请在构造或更新 SageMaker 估算器时配置profiler_config参数。

要了解如何在启动训练作业之前配置 profiler_config 参数,请参阅用于框架分析的估算器配置

要更新当前训练作业并启用框架指标分析,请参阅更新 Debugger 框架分析配置