配置 调试程序 监控硬件系统资源利用率 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

配置 调试程序 监控硬件系统资源利用率

要调整 调试程序 系统监控时间间隔,请在构建 ProfilerConfig 框架或通用评估程序时,使用 SageMaker API 操作创建参数对象,具体取决于您的首选项。

注意

默认情况下,对于所有 SageMaker 训练作业,调试程序 每 500 毫秒从 Amazon EC2 实例中收集一次硬件系统利用率数据以进行系统监控,而不在 调试程序 评估程序中指定任何特定于 SageMaker 的参数。

调试程序 将系统指标保存在默认 S3 存储桶中。默认 S3 存储桶 URI 的格式为 s3://sagemaker-<region>-<12digit_account_id>/<training-job-name>/profiler-output/

以下示例代码显示如何设置 profiler_config 参数,系统监控时间间隔为 1000 毫秒。

from sagemaker.debugger import ProfilerConfig profiler_config=ProfilerConfig( system_monitor_interval_millis=1000 )
  • system_monitor_interval_millis (int) – 指定记录系统指标的监控间隔(以毫秒为单位)。可用的值为 100、200、500、1000(1 秒)、5000(5 秒)和 60000(1 分钟)毫秒。默认值为 500 毫秒。

要查看系统监控的进度,请参阅Open Amazon SageMaker 调试程序 Insights 控制面板