访问监控和分析数据 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

访问监控和分析数据

smDebugTrainingJob类从保存系统和框架指标的 S3 存储桶读取数据。

要设置TrainingJob对象并检索训练作业的分析事件文件

from smdebug.profiler.analysis.notebook_utils.training_job import TrainingJob tj = TrainingJob(training_job_name, region)
提示

您需要指定training_job_nameregion要记录到训练任务的参数。可以通过两种方法指定培训作业信息:

  • 在估算器仍附加到培训作业时,请使用 SageMaker Python SDK。

    import sagemaker training_job_name=estimator.latest_training_job.job_name region=sagemaker.Session().boto_region_name
  • 直接传递字符串。

    training_job_name="your-training-job-name-YYYY-MM-DD-HH-MM-SS-SSS" region="us-west-2"
注意

默认情况下,SageMaker Debug 会收集系统指标以监控硬件资源利用率和系统瓶颈。运行以下函数,您可能会收到有关框架指标不可用的错误消息。要检索框架分析数据并深入了解框架操作,必须启用框架分析。

检索培训作业描述和保存指标数据的 S3 存储桶 URI 的描述

tj.describe_training_job() tj.get_config_and_profiler_s3_output_path()

检查 S3 URI 中是否可以使用系统和框架指标

tj.wait_for_sys_profiling_data_to_be_available() tj.wait_for_framework_profiling_data_to_be_available()

在指标数据可用后创建系统和框架阅读器对象

system_metrics_reader = tj.get_systems_metrics_reader() framework_metrics_reader = tj.get_framework_metrics_reader()

刷新和检索最新的培训活动文件

读者对象有一个扩展的方法,refresh_event_file_list(),以检索最新的培训活动文件。

system_metrics_reader.refresh_event_file_list() framework_metrics_reader.refresh_event_file_list()