亚马逊 A SageMaker I 中的数据隐私 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

亚马逊 A SageMaker I 中的数据隐私

Amazon SageMaker AI 收集有关训练期间使用的 Amazon自有库和开源库使用情况的汇总信息。 SageMaker AI 使用此聚合元数据来改善服务和客户体验。

以下各节介绍了 SageMaker AI 收集的元数据类型以及如何选择退出元数据收集。

收集的信息类型

使用信息

来自 Amazon自有库和开源库的用于 SageMaker 训练的元数据,例如用于分布式训练、编译和量化的元数据。

错误

意外行为导致的错误,包括故障、崩溃、级联以及因与 SageMaker 训练平台交互而导致的故障。

如何退出元数据收集

使用 CreateTrainingJob API 创建训练作业时,您可以选择不与 SageMaker 训练共享聚合元数据。如果使用管理控制台创建训练作业,则默认禁用元数据收集。

重要

您必须为每次提交的训练作业选择退出元数据收集。您还必须在 API 调用中选择退出,如以下示例所示。您不能在训练脚本中选择退出。

以下部分介绍如何使用 Amazon CLI、 适用于 Python (Boto3) 的 Amazon SDK或 SageMaker Python SDK 选择退出元数据收集。

使用 Amazon Command Line Interface (Amazon CLI) 选择退出元数据收集

要使用退出元数据收集 Amazon CLI,请在 create-training-job API 1OPT_OUT_TRACKING将环境变量设置为,如以下代码示例所示。

aws sagemaker create-training-job \ --training-job-name your_job_name \ --algorithm-specification AlgorithmName=your_algorithm_name\ --output-data-config S3OutputPath=s3://bucket-name/key-name-prefix \ --resource-config InstanceType=ml.c5.xlarge, InstanceCount=1 \ --stopping-condition MaxRuntimeInSeconds=100 \ --environment OPT_OUT_TRACKING=1

使用退出元数据收集 适用于 Python (Boto3) 的 Amazon SDK

要退出使用 Python SDK (Boto3) 收集元数据,请在 create_training_job API 中将环境变量 OPT_OUT_TRACKING 设置为 1,如以下代码示例所示。

boto3.client('sagemaker').create_training_job( TrainingJobName='your_training_job', AlgorithmSpecification={ 'AlgorithmName': 'your_algorithm_name', 'TrainingInputMode': 'File', }, RoleArn='your_arn', OutputDataConfig={ 'S3OutputPath': 's3://bucket-name/key-name-prefix', }, ResourceConfig={ 'InstanceType': 'ml.m4.xlarge', 'InstanceCount': 1, 'VolumeSizeInGB': 123, }, StoppingCondition={ 'MaxRuntimeInSeconds': 123, }, Environment={ 'OPT_OUT_TRACKING': '1' }, )

使用 P SageMaker ython 软件开发工具包选择退出元数据收集

要选择退出使用 SageMaker Python SDK 收集元数据,OPT_OUT_TRACKING请将环境变量设置为 A SageMaker I 估算器1内部,如以下代码示例所示。

sagemaker.estimator( image_uri='path_to_container', role='rolearn', instance_count=1, instance_type='ml.c5.xlarge', environment={ 'OPT_OUT_TRACKING': '1' }, )

选择退出整个账户的元数据收集

如果想退出多个账户的元数据收集,可以设置一个环境变量来退出整个账户的跟踪。您必须使用 SageMaker AI Python SDK 才能选择退出账户级别的元数据收集。

下面的代码示例显示了如何退出整个账户的跟踪。

SchemaVersion: '1.0' SageMaker: TrainingJob: Environment: 'OPT_OUT_TRACKING': '1'

有关如何选择退出全账户跟踪的更多信息,请参阅使用 Pyth SageMaker on SDK 配置和使用默认设置

其他信息

如果您的下游服务依赖于 SageMaker AI 训练

如果您运营的服务依赖于 SageMaker 培训,强烈建议您告知客户有关 SageMaker 培训平台中收集的汇总元数据的信息,并让他们选择退出。或者,您也可以代表客户选择退出元数据收集。

如果您是使用 SageMaker AI 培训的服务的客户或客户

如果您是使用 SageMaker 培训的服务的客户或客户,请使用上一节中的首选方法选择退出元数据收集。