使用输入清单文件 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用输入清单文件

输入清单文件中的每一行都是一个条目,其中包含要标记的 对象或对 对象的引用。条目还可以包含来自以前作业的标签,对于某些任务类型,还可以包含其他信息。

输入数据和清单文件必须存储在 Amazon Simple Storage Service (Amazon S3) 中。它们具有特定的存储和访问要求,如下所示:

  • 包含输入数据的 Amazon S3 存储桶必须位于运行 的同一 AWS 区域中Amazon SageMaker Ground Truth。您必须向 授予对存储在 Amazon SageMaker 存储桶中的数据Amazon S3的访问权限,以便读取这些数据。有关 Amazon S3 存储桶的更多信息,请参阅使用 Amazon S3 存储桶

  • 清单文件必须与数据文件位于同一 AWS 区域中,但不需要与数据文件位于同一位置。它可以存储在您在创建标记作业Amazon S3时分配给 的 AWS Identity and Access Management (IAM) 角色可以访问的任何 Ground Truth 存储桶中。

注意

3D点云和视频帧任务类型具有不同的输入清单要求和属性。

有关 3D 点云任务类型,请参阅为 3D 点云标记作业创建输入清单文件

有关视频帧任务类型,请参阅创建视频帧输入清单文件

清单是一个 UTF-8 编码的文件,其中每行都是完整且有效的 JSON 对象。每行都以标准换行符 \n 或 \r\n 分隔。由于每行都必须是有效的 JSON 对象,因此您不能使用未转义的换行符。有关数据格式的更多信息,请参阅 JSON 行。

清单文件中的每个 JSON 对象不能超过 100,000 个字符。对象中的任何单个属性都不能超过 20,000 个字符。属性名称不能以 $(美元符号)开头。

清单文件中的每个 JSON 对象必须包含以下键之一:source-refsource。密钥的值说明如下:

  • source-ref – 对象的源是在密钥值中指定的 Amazon S3 对象。当对象是二进制对象(如图像)时,请使用此值。

  • source – 对象的源是密钥值。当对象为文本值时使用此值。

以下是 Amazon S3 存储桶中存储的文件的清单文件示例:

{"source-ref": "S3 bucket location 1"} {"source-ref": "S3 bucket location 2"} ... {"source-ref": "S3 bucket location n"}

source-ref 键用于边界框、图像分类(单标签和多标签)、语义分割和视频分类标记作业的视频剪辑的图像文件。3D 点云和视频帧标记作业也使用 source-ref 键,但这些标记作业需要输入清单文件中的其他信息。有关更多信息,请参阅3D 点云输入数据视频帧输入数据

下面是一个含有输入数据(存储在清单中)的清单文件示例:

{"source": "Lorem ipsum dolor sit amet"} {"source": "consectetur adipiscing elit"} ... {"source": "mollit anim id est laborum"}

source 键用于单标签和多标签文本分类以及命名实体识别标记作业。

您可以在清单文件中包括其他密钥值对。这些对将传递到输出文件且保持不变。当您希望在应用程序之间传递信息时,此方法很有用。有关更多信息,请参阅输出数据