

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 选择要标注的数据
<a name="sms-data-filtering"></a>

您可以使用 Amazon SageMaker AI 控制台选择数据集的一部分进行标注。数据必须存储在 Amazon S3 存储桶中。您有三种选择：
+ 使用完整数据集。
+ 选择数据集的一个随机选择样本。
+ 使用查询指定数据集的一个子集。

选择 “**创建**标注任务” 后，[SageMaker AI 控制台](https://console.amazonaws.cn/sagemaker/groundtruth)的 “标**注任务**” 部分中提供了以下选项。要了解如何在控制台中创建标注作业，请参阅[入门：使用 Ground Truth 创建边界框标注作业](sms-getting-started.md)。要配置用于标注的数据集，请在**作业概览**部分中选择**其他配置**。

## 使用完整数据集
<a name="sms-full-dataset"></a>

当您选择使用**完整数据集**时，必须为数据对象提供一个清单文件。您可以提供包含清单文件的 Amazon S3 存储桶的路径，也可以使用 SageMaker AI 控制台创建该文件。要了解如何使用控制台创建清单文件，请参阅[自动设置标注作业的数据](sms-console-create-manifest-file.md)。

## 选择随机样本
<a name="sms-random-dataset"></a>

如果要标注数据的随机子集，请选择**随机样本**。数据集存储在**输入数据集位置**字段中指定的 Amazon S3 存储桶中。

指定要包含在样本中的数据对象的百分比后，选择**创建子集**。 SageMaker AI 会为您的标注任务随机挑选数据对象。选定对象后，请选择**使用此子集**。

SageMaker AI 为选定的数据对象创建清单文件。它还会修改**输入数据集位置**字段中的值以指向新的清单文件。

## 指定子集
<a name="sms-select-dataset"></a>

**Amazon S3 Select**  
不再向新客户提供 Amazon S3 Select。Amazon S3 Select 的现有客户可以像往常一样继续使用该功能。要了解更多信息，请参阅[《如何优化 Amazon S3 中的数据查询》](https://www.amazonaws.cn/blogs/storage/how-to-optimize-querying-your-data-in-amazon-s3/)。

您可以对对象文件名使用 Amazon S3 `SELECT` 查询以指定数据对象的一个子集。

为您定义了 SQL 查询的 `SELECT` 语句。您提供 `WHERE` 子句来指定应返回哪些数据对象。

有关 Amazon S3 `SELECT` 语句的更多信息，请参阅[从对象中选择内容](https://docs.amazonaws.cn/AmazonS3/latest/dev/selecting-content-from-objects.html)。

选择**创建子集**开始选择，然后选择**使用此子集**来使用选择的数据。

SageMaker AI 为选定的数据对象创建清单文件。它还会更新**输入数据集位置**字段中的值以指向新的清单文件。