使用输入清单文件 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

使用输入清单文件

输入清单文件中的每一行都是一个条目,包含一个要标注的对象或对象引用。条目还可以包含以前作业的标签,对于某些任务类型,还可以包含其他信息。

输入数据和清单文件必须存储在 Amazon Simple Storage Service (Amazon S3) 中。每种数据都有特定的存储和访问要求,具体如下:

  • 包含输入数据的 Amazon S3 存储桶必须位于运行 Amazon SageMaker Ground Truth 的同一个 Amazon 区域中。您必须授予 Amazon SageMaker 对存储在 Amazon S3 存储桶中的数据的访问权限,以便读取数据。有关 Amazon S3 存储桶的更多信息,请参阅使用 Amazon S3 存储桶

  • 清单文件必须与数据文件位于同一 Amazon 区域,但不必与数据文件位于同一位置。该文件可以存储在您创建标注作业时分配给 Ground Truth 的 Amazon Identity and Access Management (IAM) 角色可以访问的任何 Amazon S3 存储桶中。

注意

3D 点云和视频帧任务类型具有不同的输入清单要求和属性。

有关 3D 点云任务类型,请参考为 3D 点云标注作业创建输入清单文件

有关视频帧任务类型,请参考创建视频帧输入清单文件

清单是一个 UTF-8 编码文件,其中每行都是一个完整有效的 JSON 对象。每行都以标准换行符 \n 或 \r\n 分隔。由于每行都必须是有效的 JSON 对象,因此您不能使用未转义的换行符。有关数据格式的更多信息,请参阅 JSON 行

清单文件中的每个 JSON 对象都不能超过 10 万个字符。对象中的任何单个属性都不能超过 2 万个字符。属性名称不能以 $(美元符号)开头。

清单文件中的每个 JSON 对象都必须包含以下键之一:source-refsource。键值的解释如下:

  • source-ref – 对象的来源是值中指定的 Amazon S3 对象。当对象是二进制对象(如图像)时,使用此值。

  • source – 对象的来源是值。当对象是文本值时,使用此值。

下面是存储在 Amazon S3 存储桶中文件的清单文件示例:

{"source-ref": "S3 bucket location 1"} {"source-ref": "S3 bucket location 2"} ... {"source-ref": "S3 bucket location n"}

将图像文件的 source-ref 键用于视频分类标注作业的边界框、图像分类(单标签和多标签)、语义分割和视频剪辑。3D 点云和视频帧标注作业也使用 source-ref 键,但这些标注作业需要输入清单文件中的其他信息。有关更多信息,请参阅3D 点云输入数据视频帧输入数据

下面是一个含有输入数据(存储在清单中)的清单文件示例:

{"source": "Lorem ipsum dolor sit amet"} {"source": "consectetur adipiscing elit"} ... {"source": "mollit anim id est laborum"}

source 键用于单标签和多标签文本分类以及命名实体识别标注作业。

您可以在清单文件中包括其他键值对。这些键值对将原封不动地传递给输出文件。当您希望在应用程序之间传递信息时,此方法很有用。有关更多信息,请参阅 输出数据