Amazon 的数据隐私 SageMaker - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon 的数据隐私 SageMaker

Amazon SageMaker 收集有关训练期间使用的 Amazon自有库和开源库使用情况的汇总信息。 SageMaker 使用此汇总元数据来改善服务和客户体验。

以下各节说明了要 SageMaker 收集的元数据类型以及如何选择退出元数据收集。

收集的信息类型

使用信息

来自 Amazon自有库和开源库的用于 SageMaker 训练的元数据,例如用于分布式训练、编译和量化的元数据。

错误

意外行为导致的错误,包括故障、崩溃、级联以及因与 SageMaker 训练平台交互而导致的故障。

如何选择退出元数据收集

使用 CreateTrainingJob API 创建训练作业时,您可以选择不与 SageMaker 训练共享聚合元数据。如果您使用控制台创建训练作业,则默认情况下会禁用元数据收集。

重要

对于您提交的每项训练作业,您必须选择退出元数据收集。您还必须在 API 调用中选择退出,如以下示例所示。您不能在训练脚本中选择退出。

以下部分介绍如何使用 Amazon CLI、 Amazon SDK for Python (Boto3)或 SageMaker Python SDK 选择退出元数据收集。

使用 Amazon Command Line Interface (Amazon CLI) 选择退出元数据收集

要使用退出元数据收集 Amazon CLI,请在 create-training-job API 1OPT_OUT_TRACKING将环境变量设置为,如以下代码示例所示。

aws sagemaker create-training-job \ --training-job-name your_job_name \ --algorithm-specification AlgorithmName=your_algorithm_name\ --output-data-config S3OutputPath=s3://bucket-name/key-name-prefix \ --resource-config InstanceType=ml.c5.xlarge, InstanceCount=1 \ --stopping-condition MaxRuntimeInSeconds=100 \ --environment OPT_OUT_TRACKING=1

使用退出元数据收集 Amazon SDK for Python (Boto3)

要选择退出使用适用于 Python 的 SDK (Boto3) 收集元数据,OPT_OUT_TRACKING请在 create_training_job API 1 中将环境变量设置为,如以下代码示例所示。

boto3.client('sagemaker').create_training_job( TrainingJobName='your_training_job', AlgorithmSpecification={ 'AlgorithmName': 'your_algorithm_name', 'TrainingInputMode': 'File', }, RoleArn='your_arn', OutputDataConfig={ 'S3OutputPath': 's3://bucket-name/key-name-prefix', }, ResourceConfig={ 'InstanceType': 'ml.m4.xlarge', 'InstanceCount': 1, 'VolumeSizeInGB': 123, }, StoppingCondition={ 'MaxRuntimeInSeconds': 123, }, Environment={ 'OPT_OUT_TRACKING': '1' }, )

使用 P SageMaker ython 软件开发工具包选择退出元数据收集

要选择退出使用 SageMaker Python SDK 收集元数据,请将环境变量设置OPT_OUT_TRACKING为 SageMaker 估算器1内部,如以下代码示例所示。

sagemaker.estimator( image_uri='path_to_container', role='rolearn', instance_count=1, instance_type='ml.c5.xlarge', environment={ 'OPT_OUT_TRACKING': '1' }, )

选择退出整个账户的元数据收集

如果您想选择退出多个账户的元数据收集,则可以将环境变量设置为选择不在整个账户范围内进行跟踪。您必须使用 SageMaker Python SDK 选择退出账户级别的元数据收集。

以下代码示例显示了如何选择退出整个账户的跟踪。

SchemaVersion: '1.0' SageMaker: TrainingJob: Environment: 'OPT_OUT_TRACKING': '1'

有关如何选择退出全账户跟踪的更多信息,请参阅使用 Pyth SageMaker on SDK 配置和使用默认设置

其他信息

如果您的下游服务依赖于 SageMaker培训

如果您运营的服务依赖于 SageMaker 培训,强烈建议您告知客户有关 SageMaker 培训平台中收集的汇总元数据的信息,并让他们选择退出。或者,您可以代表客户选择退出元数据收集。

如果您是使用 SageMaker培训的服务的客户或客户

如果您是使用 SageMaker 培训的服务的客户或客户,请使用上一节中的首选方法选择退出元数据收集。