筛选和选择要标记的数据 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

筛选和选择要标记的数据

您可以使用 Amazon SageMaker 控制台选择数据集中要标记的部分。数据必须存储在 Amazon S3 存储桶中。您有三种选择:

  • 使用完整的数据集。

  • 选择数据集的一个随机选择样本。

  • 使用查询指定数据集的一个子集。

在选择 Create labeling job (创建标记作业) 后, SageMaker 控制台的 Labeling jobs (标记作业) 部分提供了以下选项。要了解如何在 控制台中创建标记作业,请参阅入门。要配置用于标记的数据集,请在 Job overview (作业概述) 部分中选择 Additional configuration (其他配置)

使用完整的数据集

当您选择使用完整数据集时,您必须为数据对象提供清单文件。您可以提供包含清单文件的 Amazon S3 存储桶的路径,也可以使用 SageMaker 控制台创建该文件。要了解如何使用控制台创建清单文件,请参阅自动数据设置

选择随机样本

当您想标记数据集的随机子集时,请选择 Random sample (随机样本)。数据集存储在 Amazon S3 Input dataset location (输入数据集位置) 字段中指定的 存储桶中。

在您指定要包含在样本中的数据对象的百分比后,立即选择 Create subset (创建子集)。SageMaker 为您的标记作业随机选取数据对象。选定对象后,请选择 Use this subset (使用此子集)

SageMaker 为选定的数据对象创建清单文件。它还会修改 Input dataset location (输入数据集位置) 字段中的值以指向新的清单文件。

指定子集

您可以对对象文件名使用 Amazon S3 SELECT 查询以指定数据对象的一个子集。

为您定义了 SQL 查询的 SELECT 语句。您提供 WHERE 子句来指定应返回哪些数据对象。

有关 Amazon S3 SELECT 语句的更多信息,请参阅从对象中选择内容

选择 Create subset (创建子集) 开始选择,然后选择 Use this subset (使用此子集) 来使用选择的数据。

SageMaker 为选定的数据对象创建清单文件。它还会更新 Input dataset location (输入数据集位置) 字段中的值以指向新的清单文件。