选择视频文件或视频帧作为输入数据 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

选择视频文件或视频帧作为输入数据

在创建视频帧对象检测或对象跟踪标签作业时,您可以提供一系列视频帧(图像),也可以使用亚马逊 SageMaker 控制台让 Ground Truth 自动从您的视频文件中提取视频帧。可通过以下部分了解有关这些选项的更多信息。

提供视频帧

视频帧是从视频文件中提取的图像序列。您可以创建 Ground Truth 标注作业,让工作人员标注多个视频帧序列。每个序列都由从单个视频中提取的图像组成。

要使用视频帧序列创建标注作业,必须在 Amazon S3 中使用唯一的键名称前缀存储每个序列。在 Amazon S3 控制台中,键名称前缀是文件夹。因此,在 Amazon S3 控制台中,每个视频帧序列必须位于 Amazon S3 中自己的文件夹中。

例如,如果您有两个视频帧序列,则可以使用键名称前缀 sequence1/sequence2/ 来标识您的序列。在此示例中,您的序列可能位于 s3://amzn-s3-demo-bucket/video-frames/sequence1/s3://amzn-s3-demo-bucket/video-frames/sequence2/ 中。

如果您使用 Ground Truth 控制台创建输入清单文件,则所有序列键名称前缀应位于 Amazon S3 中的同一位置。例如,在 Amazon S3 控制台中,每个序列都可以位于 s3://amzn-s3-demo-bucket/video-frames/ 中的文件夹中。在此示例中,您的第一个视频帧序列(图像)可能位于 s3://amzn-s3-demo-bucket/video-frames/sequence1/ 中,而您的第二个序列可能位于 s3://amzn-s3-demo-bucket/video-frames/sequence2/ 中。

重要

即使只有一个视频帧序列需要工作人员标注,该序列也必须在 Amazon S3 中有一个键名称前缀。如果您使用的是 Amazon S3 控制台,这意味着您的序列位于文件夹中。它不能位于 S3 存储桶的根目录中。

使用视频帧序列创建工作人员任务时,Ground Truth 会为每个任务使用一个序列。在每项任务中,Ground Truth 都使用 UTF-8 二进制顺序对视频帧进行排序。

例如,在 Amazon S3 中,视频帧可能按以下顺序排列:

[0001.jpg, 0002.jpg, 0003.jpg, ..., 0011.jpg]

按照在工作人员任务中的相同顺序排列视频帧:0001.jpg, 0002.jpg, 0003.jpg, ..., 0011.jpg

也可以使用如下命名约定对帧进行排序:

[frame1.jpg, frame2.jpg, ..., frame11.jpg]

在这种情况下,在工作人员任务中,frame10.jpgframe11.jpgframe2.jpg 前面。工作人员会按以下顺序看到您的视频帧:frame1.jpg, frame10.jpg, frame11.jpg, frame2.jpg, ..., frame9.jpg

提供视频文件

在控制台中创建新的标注作业时,可以使用 Ground Truth 帧拆分功能从视频文件(MP4文件)中提取视频帧。从单个视频文件中提取的一系列视频帧被称为视频帧序列

您可以让 Ground Truth 自动从视频中提取所有帧(最多 2000 帧),也可以指定帧提取频率。例如,您可以让 Ground Truth 每隔 10 帧从视频中提取一次。

使用自动数据设置提取帧时,最多可以提供 50 个视频,但是在创建视频帧对象跟踪和视频帧对象检测标注作业时,输入清单文件不能引用 10 个以上的视频帧序列文件。如果您使用自动数据设置控制台工具从 10 个以上的视频文件中提取视频帧,则需要修改该工具生成的清单文件,或创建一个新的清单文件以包含 10 个或更少的视频帧序列文件。要了解有关这些限额的更多信息,请参阅3D 点云和视频帧标注作业限额

要使用视频帧提取工具,请参阅设置自动视频帧输入数据

成功从视频中提取所有视频帧后,您将在 S3 输入数据集位置中看到以下内容:

  • 以每个视频命名的键名称前缀(Amazon S3 控制台中的文件夹)。每一个前缀都会导致:

    • 从视频中提取的用于命名该前缀的视频帧序列。

    • 用于标识组成该序列的所有图像的序列文件。

  • 扩展名为 .manifest 的输入清单文件。这标识了将用于创建标注作业的所有序列文件。

从单个视频文件中提取的所有帧都用于标注任务。如果从多个视频文件中提取视频帧,则会为标注作业创建多个任务,每个视频帧序列一个任务。

Ground Truth 会使用唯一的键名称前缀,将提取的每个视频帧序列存储到输入数据集的 Amazon S3 位置。在 Amazon S3 控制台中,键名称前缀是文件夹。