本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
JSON (Amazon CLI)
通过 SageMaker CreateTrainingJobAPI操作,可以使用DebugHookConfig、DebugRuleConfiguration、和ProfilerRuleConfiguration对象为训练作业配置 Amazon D SageMaker ebugger 内置规则。ProfilerConfig您需要在RuleEvaluatorImage
参数URI中指定正确的图像,以下示例将引导您完成如何设置要请求的JSON字符串CreateTrainingJob。
以下代码显示了使用所需设置和调试器配置运行训练作业的完整JSON模板。将模板另存为工作目录中的JSON文件,然后使用运行训练作业 Amazon CLI。例如,将以下代码另存为 debugger-training-job-cli.json
。
注意
确保使用正确的 Docker 容器映像。要查找 Amazon 深度学习容器镜像,请参阅可用的 Deep Learning Containers 镜像
{ "TrainingJobName": "
debugger-aws-cli-test
", "RoleArn": "arn:aws:iam::111122223333:role/service-role/AmazonSageMaker-ExecutionRole-YYYYMMDDT123456
", "AlgorithmSpecification": { // Specify a training Docker container image URI (Deep Learning Container or your own training container) to TrainingImage. "TrainingImage": "763104351884.dkr.ecr.us-west-2.amazonaws.com/tensorflow-training:2.4.1-gpu-py37-cu110-ubuntu18.04
", "TrainingInputMode": "File
", "EnableSageMakerMetricsTimeSeries": false }, "HyperParameters": { "sagemaker_program": "entry_point/tf-hvd-train.py
", "sagemaker_submit_directory": "s3://sagemaker-us-west-2-111122223333/debugger-boto3-profiling-test/source.tar.gz
" }, "OutputDataConfig": { "S3OutputPath": "s3://sagemaker-us-west-2-111122223333/debugger-aws-cli-test
/output" }, "DebugHookConfig": { "S3OutputPath": "s3://sagemaker-us-west-2-111122223333/debugger-aws-cli-test
/debug-output", "CollectionConfigurations": [ { "CollectionName": "losses
", "CollectionParameters" : { "train.save_interval": "50
" } } ] }, "DebugRuleConfigurations": [ { "RuleConfigurationName": "LossNotDecreasing
", "RuleEvaluatorImage": "895741380848.dkr.ecr.us-west-2.amazonaws.com/sagemaker-debugger-rules:latest
", "RuleParameters": {"rule_to_invoke": "LossNotDecreasing
"} } ], "ProfilerConfig": { "S3OutputPath": "s3://sagemaker-us-west-2-111122223333/debugger-aws-cli-test
/profiler-output", "ProfilingIntervalInMilliseconds":500
, "ProfilingParameters": { "DataloaderProfilingConfig": "{\"StartStep\":5
, \"NumSteps\":3
, \"MetricsRegex\": \".*\", }", "DetailedProfilingConfig": "{\"StartStep\":5
, \"NumSteps\":3
, }", "PythonProfilingConfig": "{\"StartStep\":5
, \"NumSteps\":3
, \"ProfilerName\": \"cprofile
\", \"cProfileTimer\": \"total_time
\"}", "LocalPath": "/opt/ml/output/profiler/" } }, "ProfilerRuleConfigurations": [ { "RuleConfigurationName": "ProfilerReport", "RuleEvaluatorImage": "895741380848.dkr.ecr.us-west-2.amazonaws.com/sagemaker-debugger-rules:latest
", "RuleParameters": {"rule_to_invoke": "ProfilerReport"} } ], "ResourceConfig": { "InstanceType": "ml.p3.8xlarge
", "InstanceCount":1
, "VolumeSizeInGB": 30 }, "StoppingCondition": { "MaxRuntimeInSeconds":86400
} }
保存JSON文件后,在终端中运行以下命令。(如果您使用 Jupyter 笔记本,则在行的开头使用 !
。)
aws sagemaker create-training-job --cli-input-json file://debugger-training-job-cli.json
配置 Debugger 规则以调试模型参数
以下代码示例展示了如何使用它配置内置VanishingGradient
规则 SageMaker API。
启用 Debugger 收集输出张量
按如下方式指定 Debugger 钩子配置:
"DebugHookConfig": { "S3OutputPath": "
s3://<default-bucket>/<training-job-name>/debug-output
", "CollectionConfigurations": [ { "CollectionName": "gradients
", "CollectionParameters" : { "save_interval": "500
" } } ] }
这将使训练作业按每 500 个步骤的 save_interval
保存一次 gradients
张量集合。要查找可用CollectionName
值,请参阅SMDebug客户端库文档中的调试器内置集合CollectionParameters
参数键和值,请参阅 SageMaker Python SDK 文档中的sagemaker.debugger.CollectionConfig
启用 Debugger 规则来调试输出张量
以下DebugRuleConfigurations
API示例说明如何对已保存的gradients
集合运行内置VanishingGradient
规则。
"DebugRuleConfigurations": [ { "RuleConfigurationName": "
VanishingGradient
", "RuleEvaluatorImage": "503895931360.dkr.ecr.us-east-1.amazonaws.com/sagemaker-debugger-rules:latest
", "RuleParameters": { "rule_to_invoke": "VanishingGradient
", "threshold": "20.0
" } } ]
通过类似于此示例中的配置,Debugger 使用 VanishingGradient
规则,在 gradients
张量的集合上为您的训练作业启动规则评估作业。要查找使用 Debugger 规则时可用的 Docker 映像的完整列表,请参阅用于调试器规则的 Docker 镜像。要查找 RuleParameters
的键值对,请参阅 调试器内置规则列表。
为分析系统和框架指标配置 Debugger 内置规则
以下示例代码演示如何指定启用收集系统和框架指标的 ProfilerConfig API操作。
启用 Debugger 分析以收集系统和框架指标
启用 Debugger 规则来分析指标
以下示例代码显示了如何配置 ProfilerReport
规则。
"ProfilerRuleConfigurations": [ { "RuleConfigurationName": "ProfilerReport", "RuleEvaluatorImage": "
895741380848.dkr.ecr.us-west-2.amazonaws.com/sagemaker-debugger-rules:latest
", "RuleParameters": { "rule_to_invoke": "ProfilerReport", "CPUBottleneck_cpu_threshold": "90
", "IOBottleneck_threshold": "90
" } } ]
要查找使用 Debugger 规则时可用的 Docker 映像的完整列表,请参阅用于调试器规则的 Docker 镜像。要查找 RuleParameters
的键值对,请参阅 调试器内置规则列表。
使用更新调试器分析配置 UpdateTrainingJob
API
可以在训练作业运行时使用UpdateTrainingJobAPI操作更新调试器分析配置。配置新的ProfilerConfig和ProfilerRuleConfiguration对象,并在TrainingJobName
参数中指定训练作业名称。
{ "ProfilerConfig": { "DisableProfiler":
boolean
, "ProfilingIntervalInMilliseconds":number
, "ProfilingParameters": { "string
" : "string
" } }, "ProfilerRuleConfigurations": [ { "RuleConfigurationName": "string
", "RuleEvaluatorImage": "string
", "RuleParameters": { "string" : "string
" } } ], "TrainingJobName": "your-training-job-name-YYYY-MM-DD-HH-MM-SS-SSS
" }
将调试器自定义规则配置添加到 CreateTrainingJob
API
可以使用 CreateTrainingJobAPI操作中的 DebugHookConfig和 DebugRuleConfiguration对象为训练作业配置自定义规则。以下代码示例显示如何使用此 SageMaker API操作配置使用 smdebug 库编写的自定义ImproperActivation
规则。此示例假定您已在 custom_rules.py 文件中编写自定义规则,并将其上传到 Amazon S3 存储桶。该示例提供了预构建的 Docker 映像,您可以使用这些映像运行自定义规则。URIs适用于自定义规则评估者的 Amazon SageMaker 调试器图片 中列出了这些映像。您可以在参数中指定预构建的 Docker 镜像的URL注册表地址。RuleEvaluatorImage
"DebugHookConfig": { "S3OutputPath": "
s3://<default-bucket>/<training-job-name>/debug-output
", "CollectionConfigurations": [ { "CollectionName": "relu_activations
", "CollectionParameters": { "include_regex": "relu
", "save_interval": "500
", "end_step": "5000
" } } ] }, "DebugRulesConfigurations": [ { "RuleConfigurationName": "improper_activation_job
", "RuleEvaluatorImage": "552407032007.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rule-evaluator:latest
", "InstanceType": "ml.c4.xlarge
", "VolumeSizeInGB":400
, "RuleParameters": { "source_s3_uri": "s3://bucket/custom_rules.py
", "rule_to_invoke": "ImproperActivation
", "collection_names": "relu_activations
" } } ]
要查找使用 Debugger 规则时可用的 Docker 映像的完整列表,请参阅用于调试器规则的 Docker 镜像。要查找 RuleParameters
的键值对,请参阅 调试器内置规则列表。