自动数据设置 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

自动数据设置

您可以使用自动数据设置,使用存储在 Amazon S3 中的图像、视频、视频帧、文本 (.txt) 文件和逗号分隔值 (.csv) 文件在 Ground Truth 控制台中为标签作业创建清单文件。使用自动数据设置时,您可以指定存储输入数据的 Amazon S3 位置和输入数据类型,然后 Ground Truth 会在您指定的位置查找与该类型相匹配的文件。

注意

Ground TrutAmazon KMS h 不使用密钥访问您的输入数据或在您指定的 Amazon S3 位置写入输入清单文件。创建标签任务的用户或角色必须有权访问您在 Amazon S3 中的输入数据对象。

在使用以下过程之前,请确保输入图像或文件的格式正确:

  • 图像文件-图像文件必须符合中表格中列出的大小和分辨率限制输入文件大小限制

  • 文本文件-文本数据可以存储在一个或多个.txt 文件中。要标记的每个项目必须用标准换行符分隔。

  • CSV 文件-文本数据可以存储在一个或多个.csv 文件中。要标记的每个项目必须位于单独的行中。

  • 视频-视频文件可以是以下任何格式:.mp4、.ogg 和.webm。如果要从视频文件中提取视频帧以进行物体检测或物体跟踪,请参阅提供视频文件

  • 视频帧-视频帧是从视频中提取的图像。从单个视频中提取的所有图像都被称为一系列视频帧。在 Amazon S3 中,每个视频帧序列都必须具有唯一的前缀密钥。请参阅提供视频帧。对于此数据类型,请参见自动视频帧输入数据设置

重要

有关视频帧对象检测和视频帧对象跟踪标签作业,请参阅了解自动视频帧输入数据设置如何使用自动数据设置。

按照这些说明自动设置您的输入数据集与 Ground Truth 的连接。

将您在 Amazon S3 中存储的数据与 Ground S3 中的数据
  1. 导航至亚马逊 SageMaker控制台中的 “创建贴标任务” 页面,网址为 https://console.aws.amazon.com/sagemaker/

    此链接将您置于北弗吉尼亚州(us-1)Amazon区域。如果您的输入数据位于其他区域的 Amazon S3 存储桶中,请切换到该区域。要更改您的Amazon区域,请在导航栏上选择当前所显示区域的名称。

  2. 选择创建标注作业

  3. 输入 Job name(任务名称)。

  4. 输入数据设置部分中,选择自动数据设置

  5. 为输入数据集输入 S3 位置的 Amazon S3 URI。

  6. 为输出数据集指定 S3 位置。这是存储输出数据的位置。

  7. 使用下拉列表选择您的数据类型

  8. 使用 I AM 角色下的下拉菜单选择执行角色。如果您选择创建新角色,请指定要向该角色授予访问权限的 Amazon S3 存储桶。此角色必须有权访问您在步骤 5 和 6 中指定的 S3 存储桶。

  9. 选择 “完成数据设置”

这会在 Amazon S3 位置为您在步骤 5 中指定的输入数据集创建输入清单。如果您使用 SageMaker API 或、或Amazon SDK 创建标签任务Amazon CLI,请使用此输入清单文件的 Amazon S3 URI 作为参数的输入ManifestS3Uri

以下 GIF 演示了如何对图像数据使用自动数据设置。此示例将在 Amazon S3 存储桶dataset-YYMMDDTHHMMSS.manifest中创建一个文件,example-groundtruth-images其中YYMMDDTHHmmSS指示输入清单文件创建的年 (YYMM)、月 (DD)、日 (HH) 和时间 (mm),以小时 (ss)、分钟 () 和秒 () 为单位。