自动数据设置 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

自动数据设置

您可以使用自动数据设置在 Ground Truth 控制台中使用存储在 中的图像、视频、视频帧、文本 (.txt) 文件和逗号分隔值 (.csv) 文件为标记作业创建清单文件Amazon S3。使用自动数据设置时,您可以指定存储输入数据的 S3 位置和输入数据类型, 会在您指定的位置Ground Truth中查找与该类型匹配的文件。

注意

Ground Truth 不使用AWS KMS键来访问您的输入数据,也不在您指定的 S3 位置写入输入清单文件。

在使用以下过程之前,请确保输入图像或文件的格式正确:

  • 图像文件 – 图像文件必须遵守输入文件大小限制中的表列出的大小和分辨率限制。

  • 文本文件 – 文本数据可以存储在一个或多个 .txt 文件中。要标记的每个项目必须用标准换行符分隔。

  • CSV 文件 – 文本数据可以存储在一个或多个 .csv 文件中。要标记的每个项目必须位于单独的行中。

  • Videos – 视频文件可以是以下任一格式mp4 和 .webm。如果要从视频文件中提取视频帧以进行对象检测或对象跟踪,请参阅提供视频文件

  • 视频帧 – 视频帧是从视频中提取的图像。从单个视频中提取的所有图像称为视频帧序列。视频帧的每个序列在 中必须具有唯一的前缀键Amazon S3。请参阅 提供视频帧。有关此数据类型,请参阅 自动视频帧输入数据设置

重要

有关视频帧对象检测和视频帧对象跟踪标记作业,请参阅自动视频帧输入数据设置以了解如何使用自动数据设置。

按照以下说明自动设置与 的输入数据集连接Ground Truth。

使用 自动连接 中的数据 Amazon S3 Ground Truth

  1. 导航到 控制台中的 Create labeling Amazon SageMaker https://console.amazonaws.cn/sagemaker/job (创建标记作业) 页面:。

    此链接会将您置于弗吉尼亚北部 (us-east-1) AWS 区域中。如果您的输入数据位于另一个区域的 Amazon S3 存储桶中,请切换到该区域。要更改您的 AWS 区域,请在导航栏上选择当前显示的区域的名称。

  2. 选择 Create labeling job (创建标记作业)。

  3. 输入 Job name (作业名称)。

  4. Input data setup (输入数据设置) 部分中,选择 Automated data setup (自动数据设置)。

  5. 为输入数据集Amazon S3的 S3 位置输入 URI。

  6. 指定输出数据集S3 位置。这是存储输出数据的位置。

  7. 使用下拉列表选择您的 Data type (数据类型)。

  8. 使用 IAM Role (IAM 角色) 下的下拉菜单选择一个执行角色。如果您选择 Create a new role (创建新角色),请指定您希望为此角色授予访问权限的 S3 存储桶。此角色必须有权访问您在步骤 5 和 6 中指定的 S3 存储桶。

  9. 选择 Complete data setup (完成数据设置)。

这会Amazon S3为您在步骤 5 中指定的输入数据集的位置创建一个输入清单。如果您使用 SageMaker API 或 AWS CLI或 AWS 开发工具包创建标记作业,请将此输入清单文件的 Amazon S3 URI 用作参数 的输入ManifestS3Uri

以下 GIF 演示如何对图像数据使用自动数据设置。此示例将在 S3 存储桶dataset-YYMMDDTHHMMSS.manifest中创建一个文件example-groundtruth-images,其中 YYMMDDTHHmmSS 指示已创建输入清单文件的年 (YY)、月 (MM)、天 (DD) 和时间 (HH以小时为单位) ()、分钟 (mm) 和秒 (ss)。