通过以下方式监控实验训练指标 Amazon CloudTrail - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

通过以下方式监控实验训练指标 Amazon CloudTrail

Amazon E SageMaker xperions 的训练指标与一项服务集成在一起Amazon CloudTrail,该服务提供用户、角色或Amazon服务所执行操作的记录。CloudTrail 会将 BatchPutMetrics 的所有 API 调用作为事件捕获。SageMakerBatchPutMetrics当您创建使用适用于 Python 的 SageMaker SDK 运行的实验时会自动调用。 Amazon CloudTrail捕获与资源类型调用相关的数据AWS::SageMaker::ExperimentTrialComponent

注意

在 Studio Expertions 用户界面中,试验被称为运行组,试用组件被称为运行

创建实验运行时,您还可以配置将CloudTrail事件持续传输到 Amazon S3 存储桶。CloudTrail用于监控实验运行的所有采集的训练指标,包括指标名称、记录指标的训练步骤、时间戳和指标值等信息。CloudTrail事件还包括实验运行 ARN、创建运行的账户 ID 以及资源类型(应为)AWS::SageMaker::ExperimentTrialComponent

要将 BatchPutMetrics API 调用作为CloudTrail事件进行监控,必须先在中设置数据平面 API 活动的日志CloudTrail。请参见记录数据事件用于跟踪了解更多信息。要精确控制要有选择地记录哪些 API 调用并为其付费,您可以按资源类型筛选CloudTrail事件。指定AWS::SageMaker::ExperimentTrialComponent为资源类型以监控 BatchPutMetrics API 的调用。有关更多信息,请参阅 DataResourceAmazon CloudTrailAPI 参考文档。要了解有关 CloudTrail 的更多信息,请参阅 Amazon CloudTrail 用户指南

有关亚马逊如何SageMaker与之合作的深入解释Amazon CloudTrail,请参阅使用以下方式记录亚马逊 SageMaker API 调用 Amazon CloudTrail

以下是实验运行中训练指标的示例CloudTrail事件:

{ ... "eventTime": "2022-12-14T21:53:41Z", "eventSource": "metrics-sagemaker.amazonaws.com", "eventName": "BatchPutMetrics", "awsRegion": "us-east-1", "sourceIPAddress": "192.0.2.0", "userAgent": "aws-cli/2.7.25 Python/3.9.11 Linux/5.4.214-134.408.amzn2int.x86_64 exe/x86_64.amzn.2 prompt/off command/sm-metrics.batch-put-metrics", "requestParameters": { "trialComponentName": "trial-component-name", "metricData": [ { "metricName": "foo", "timestamp": 1670366870000, "step": 101, "value": 0.9 } ] }, ... "resources": [ { "accountId": "abcdef01234567890", "type": "AWS::SageMaker::ExperimentTrialComponent", "ARN": "arn:aws:sagemaker:us-east-1:1234567890abcdef0:experiment-trial-component/trial-component-name" } ], ... }