本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
通过以下方式监控实验训练指标 Amazon CloudTrail
Amazon E SageMaker xperions 的训练指标与一项服务集成在一起Amazon CloudTrail,该服务提供用户、角色或Amazon服务所执行操作的记录。CloudTrail 会将 BatchPutMetrics
的所有 API 调用作为事件捕获。SageMakerBatchPutMetrics
当您创建使用适用于 Python 的 SageMaker SDK 运行的实验时会自动调用。 Amazon CloudTrail捕获与资源类型调用相关的数据AWS::SageMaker::ExperimentTrialComponent
。
注意
在 Studio Expertions 用户界面中,试验被称为运行组,试用组件被称为运行。
创建实验运行时,您还可以配置将CloudTrail事件持续传输到 Amazon S3 存储桶。CloudTrail用于监控实验运行的所有采集的训练指标,包括指标名称、记录指标的训练步骤、时间戳和指标值等信息。CloudTrail事件还包括实验运行 ARN、创建运行的账户 ID 以及资源类型(应为)AWS::SageMaker::ExperimentTrialComponent
。
要将 BatchPutMetrics
API 调用作为CloudTrail事件进行监控,必须先在中设置数据平面 API 活动的日志CloudTrail。请参见记录数据事件用于跟踪了解更多信息。要精确控制要有选择地记录哪些 API 调用并为其付费,您可以按资源类型筛选CloudTrail事件。指定AWS::SageMaker::ExperimentTrialComponent
为资源类型以监控 BatchPutMetrics
API 的调用。有关更多信息,请参阅 DataResourceAmazon CloudTrailAPI 参考文档。要了解有关 CloudTrail 的更多信息,请参阅 Amazon CloudTrail 用户指南。
有关亚马逊如何SageMaker与之合作的深入解释Amazon CloudTrail,请参阅使用以下方式记录亚马逊 SageMaker API 调用 Amazon CloudTrail。
以下是实验运行中训练指标的示例CloudTrail事件:
{ ... "eventTime":
"2022-12-14T21:53:41Z"
, "eventSource":"metrics-sagemaker.amazonaws.com"
, "eventName":"BatchPutMetrics"
, "awsRegion":"us-east-1"
, "sourceIPAddress":"192.0.2.0"
, "userAgent": "aws-cli/2.7.25 Python/3.9.11 Linux/5.4.214-134.408.amzn2int.x86_64 exe/x86_64.amzn.2 prompt/off command/sm-metrics.batch-put-metrics", "requestParameters": { "trialComponentName":"trial-component-name"
, "metricData": [ { "metricName":"foo"
, "timestamp":1670366870000
, "step":101
, "value":0.9
} ] }, ... "resources": [ { "accountId":"abcdef01234567890"
, "type":"AWS::SageMaker::ExperimentTrialComponent"
, "ARN":"arn:aws:sagemaker:us-east-1:1234567890abcdef0:experiment-trial-component/trial-component-name"
} ], ... }