容器约定输入 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

容器约定输入

Amazon SageMaker 模型监控器平台根据指定的计划调用您的容器代码。如果您选择编写您自己的容器代码,则可以使用以下环境变量。在此上下文中,可以分析当前数据集或评估约束(如果您选择这样做)并发出指标(如果适用)。

除了 dataset_format 变量之外,实时端点和批量转换作业的可用环境变量相同。如果您使用的是实时端点,则 dataset_format 变量支持以下选项:

{\"sagemakerCaptureJson\": {\"captureIndexNames\": [\"endpointInput\",\"endpointOutput\"]}}

如果您使用的是批量转换作业,则 dataset_format 支持以下选项:

{\"csv\": {\"header\": [\"true\",\"false\"]}}
{\"json\": {\"line\": [\"true\",\"false\"]}}
{\"parquet\": {}}

以下代码示例显示了可用于容器代码的整套环境变量(并对实时端点使用 dataset_format 格式)。

"Environment": { "dataset_format": "{\"sagemakerCaptureJson\": {\"captureIndexNames\": [\"endpointInput\",\"endpointOutput\"]}}", "dataset_source": "/opt/ml/processing/endpointdata", "end_time": "2019-12-01T16: 20: 00Z", "output_path": "/opt/ml/processing/resultdata", "publish_cloudwatch_metrics": "Disabled", "sagemaker_endpoint_name": "endpoint-name", "sagemaker_monitoring_schedule_name": "schedule-name", "start_time": "2019-12-01T15: 20: 00Z" }
参数
参数名称 描述
dataset_format

对于从由 Endpoint 支持的 MonitoringSchedule 开始的作业,这是具有捕获索引 endpointInput 和/或 endpointOutputsageMakerCaptureJson。对于批量转换作业,这指定了数据格式,无论是 CSV、JSON 还是 Parquet。

dataset_source

如果您使用的是实时端点,则提供与由 start_timeend_time 指定的监控周期对应的数据所在的本地路径。在此路径中,数据在 /{endpoint-name}/{variant-name}/yyyy/mm/dd/hh 中可用。

有时,我们下载的内容超出了开始时间和结束时间所指定的范围。由容器代码根据需要决定解析数据。

output_path

用于写入输出报告和其他文件的本地路径。您必须在 CreateMonitoringSchedule 请求中将该参数指定为 MonitoringOutputConfig.MonitoringOutput[0].LocalPath。它将上传到 MonitoringOutputConfig.MonitoringOutput[0].S3Uri 中指定的 S3Uri 路径。

publish_cloudwatch_metrics

对于由 CreateMonitoringSchedule 启动的作业,此参数设置为 Enabled。容器可以选择写入位于 [filepath] 的 Amazon CloudWatch 输出文件。

sagemaker_endpoint_name

如果您使用的是实时端点,则是为其启动此计划作业的 Endpoint 的名称。

sagemaker_monitoring_schedule_name

启动了此作业的 MonitoringSchedule 的名称。

*sagemaker_endpoint_datacapture_prefix*

如果您使用的是实时端点,则是 EndpointDataCaptureConfig 参数中指定的前缀。如果容器需要直接访问的数据多于 SageMaker 通过 dataset_source 路径下载的数据,则容器可以使用此选项。

start_time, end_time

此分析的运行时段。例如,对于计划在 05:00 UTC 运行的作业和在 20/02/2020 运行的作业,start_time 为 2020-02-19T06:00:00Z,end_time 为 2020-02-20T05:00:00Z

baseline_constraints:

BaselineConfig.ConstraintResource.S3Uri 中指定的基准约束文件的本地路径。这仅在 CreateMonitoringSchedule 请求中指定了此参数时可用。

baseline_statistics

BaselineConfig.StatisticsResource.S3Uri 中指定的基准统计数据文件的本地路径。这仅在 CreateMonitoringSchedule 请求中指定了此参数时可用。