使用 Amazon CloudTrail监控实验训练指标 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon CloudTrail监控实验训练指标

Amazon Ex SageMaker periments 的训练指标与 Amazon CloudTrail一项服务集成,该服务记录用户、角色或 Amazon 服务所采取的操作。 CloudTrail 将所有 API 调用捕获BatchPutMetrics为事件。 SageMaker 使用适用于 Python 的 SageMaker SDK 创建实验运行BatchPutMetrics时会自动调用。 Amazon CloudTrail 捕获与资源类型调用相关的数据AWS::SageMaker::ExperimentTrialComponent

注意

在 Studio Classic Experiments 用户界面中,试验被称为运行组,试用组件称为运行

创建实验运行时,您还可以配置持续向 Amazon S3 存储桶传送 CloudTrail事件。 CloudTrail 用于监控实验运行的所有提取训练指标,包括指标名称、记录指标的训练步骤、时间戳和指标值等信息。 CloudTrail 事件还包括实验运行 ARN、创建运行的账户 ID 以及资源类型(应为)。AWS::SageMaker::ExperimentTrialComponent

要将 BatchPutMetrics API 调用作为 CloudTrail 事件进行监控,必须先在中设置数据平面 API 活动的日志记录 CloudTrail。有关更多信息,请参阅记录数据事件用于跟踪。要精细控制要有选择地记录哪些 API 调用并付费,您可以按资源类型筛选 CloudTrail 事件。可指定 AWS::SageMaker::ExperimentTrialComponent 为资源类型,以监控对 BatchPutMetrics API 的调用。有关更多信息,请参阅 Amazon CloudTrail API 参考DataResource中的。要了解更多信息 CloudTrail,请参阅《Amazon CloudTrail 用户指南》

要深入了解Amazon的合作 SageMaker 方式 Amazon CloudTrail,请参阅使用记录亚马逊 SageMaker API 调用 Amazon CloudTrail

以下是实验运行中训练指标的示例 CloudTrail 事件:

{ ... "eventTime": "2022-12-14T21:53:41Z", "eventSource": "metrics-sagemaker.amazonaws.com", "eventName": "BatchPutMetrics", "awsRegion": "us-east-1", "sourceIPAddress": "192.0.2.0", "userAgent": "aws-cli/2.7.25 Python/3.9.11 Linux/5.4.214-134.408.amzn2int.x86_64 exe/x86_64.amzn.2 prompt/off command/sm-metrics.batch-put-metrics", "requestParameters": { "trialComponentName": "trial-component-name", "metricData": [ { "metricName": "foo", "timestamp": 1670366870000, "step": 101, "value": 0.9 } ] }, ... "resources": [ { "accountId": "abcdef01234567890", "type": "AWS::SageMaker::ExperimentTrialComponent", "ARN": "arn:aws:sagemaker:us-east-1:1234567890abcdef0:experiment-trial-component/trial-component-name" } ], ... }