自动数据设置 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

自动数据设置

您可以使用自动数据设置,在 Ground Truth 控制台中,使用图像、视频、视频框架、文本 (.txt) 文件和存储在 Amazon S3 中的逗号分隔值 (.csv) 文件为标记作业创建清单文件。使用自动数据设置时,您可以指定存储输入数据的 Amazon S3 位置和输入数据类型,Ground Truth 会在指定位置中查找与该类型匹配的文件。

注意

Ground Truth 不使用Amazon KMS键可访问输入数据或在您指定的 Amazon S3 位置写入输入清单文件。创建标签作业的 IAM 用户或角色必须具有访问 Amazon S3 中输入数据对象的权限。

在使用以下过程之前,请确保输入图像或文件的格式正确:

  • 图像文件 — 图像文件必须遵守中的表列出的大小和分辨率限制。输入文件大小限制.

  • 文本文件 — 文本数据可以存储在一个或多个 .txt 文件中。要标记的每个项目必须用标准换行符分隔。

  • CSV 文件 — 文本数据可以存储在一个或多个 .csv 文件中。要标记的每个项目必须位于单独的行中。

  • 视频 — 视频文件可以是以下任意格式:.mp4、.ogg 和 .webm。如果要从视频文件中提取视频帧以进行对象检测或对象跟踪,请参阅提供视频文件.

  • 视频帧 — 视频帧是从视频中提取的图像。从单个视频中提取的所有图像都称为视频帧序列. 在 Amazon S3 中,每个视频帧序列必须具有唯一的前缀键。请参阅 提供视频帧。有关此数据类型,请参阅自动视频帧输入数据设置

重要

有关视频帧对象检测和视频帧对象跟踪标记作业,请参阅自动视频帧输入数据设置了解如何使用自动化数据设置。

使用这些说明自动设置与 Ground Truth 的输入数据集连接。

使用 Ground Truth 自动连接 Amazon S3 中的数据

  1. 导航到创建标记作业在位于的 Amazon SageMaker 控制台中的页面https://console.aws.amazon.com/sagemaker/.

    此链接将您带到弗吉尼亚北部(us-east-1)Amazon区域。如果您的输入数据位于另一个区域的 Amazon S3 存储桶中,请切换到该区域。更改您的Amazon地区,在导航栏中,选择当前显示区域的名称。

  2. Select创建标记作业.

  3. 输入 Job name(任务名称)。

  4. 在部分中输入数据设置,请选择自动化数据设置.

  5. 输入 Amazon S3 URI输入数据集的 S3 位置.

  6. 指定您的输出数据集的 S3 位置. 这是存储输出数据的地方。

  7. 选择您的数据类型使用下拉列表。

  8. 使用下拉菜单IAM 角色以选择执行角色。如果您选择创建新角色中,指定您希望授予此角色访问权限的 Amazon S3 存储桶。此角色必须有权访问您在步骤 5 和步骤 6 中指定的 S3 存储桶。

  9. Select完成数据设置.

这将在 Amazon S3 位置为您在步骤 5 中指定的输入数据集创建输入清单。如果要使用 SageMaker API 创建标记作业,或者Amazon CLI,或者AmazonSDK,使用此输入清单文件的 Amazon S3 URI 作为参数的输入ManifestS3Uri.

以下 GIF 演示了如何将自动化数据设置用于图像数据。这个例子将创建一个文件,dataset-YYMMDDTHHMMSS.manifest在 Amazon S3 存储桶中example-groundtruth-images哪里YYMMDDTHHmmSS表示年份(YY)、月 (MM)、1 天 (DD) 和时间(以小时为单位)HH)、分钟 (mm) 和秒 (ss),输入清单文件已创建。