访问监控和分析数据 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

访问监控和分析数据

SMDebug TrainingJob 类从保存系统和框架指标的 S3 存储桶中读取数据。

设置 TrainingJob 对象并检索训练作业的分析事件文件

from smdebug.profiler.analysis.notebook_utils.training_job import TrainingJob tj = TrainingJob(training_job_name, region)
提示

您需要指定 training_job_nameregion 参数以记录到训练作业。有两种方法可以指定训练作业信息:

  • 当评估程序仍附加到训练作业时,请使用 SageMaker Python 开发工具包。

    import sagemaker training_job_name=estimator.latest_training_job.job_name region=sagemaker.Session().boto_region_name
  • 直接传递字符串。

    training_job_name="your-training-job-name-YYYY-MM-DD-HH-MM-SS-SSS" region="us-west-2"

检索训练作业描述和在其中保存指标数据的 S3 存储桶 URI 的描述

tj.describe_training_job() tj.get_config_and_profiler_s3_output_path()

检查 S3 URI 中提供的系统和框架指标

tj.wait_for_sys_profiling_data_to_be_available() tj.wait_for_framework_profiling_data_to_be_available()

在指标数据可用后创建系统和框架读取器对象

system_metrics_reader = tj.get_systems_metrics_reader() framework_metrics_reader = tj.get_framework_metrics_reader()

刷新和检索最新的训练事件文件

读取器对象具有扩展方法 refresh_event_file_list()以检索最新的训练事件文件。

system_metrics_reader.refresh_event_file_list() framework_metrics_reader.refresh_event_file_list()