使用输入清单文件 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用输入清单文件

输入清单文件中的每一行都是一个条目,其中包含要标记的对象或对象的引用。条目还可以包含来自之前作业的标签,对于某些任务类型,还可以包含其他信息。

输入数据和清单文件必须存储在 Amazon Simple Storage Service (Amazon S3) 中。它们具有特定的存储和访问要求,如下所示:

  • 包含输入数据的 Amazon S3 存储桶必须位于同一Amazon您正在运行 Amazon SageMaker Ground Truth 的区域。您必须授予 Amazon SageMaker 对存储在 Amazon S3 存储桶中的数据的访问权限,以便读取数据。有关 Amazon S3 存储桶的更多信息,请参阅使用 Amazon S3 存储桶.

  • 清单文件必须位于同一Amazon区域作为数据文件,但不需要与数据文件位于同一位置。它可以存储在可以访问的任何 Amazon S3 存储桶中。Amazon Identity and Access Management(IAM) 角色,您在创建标记作业时分配给 Ground Truth。

注意

3D 点云和视频帧任务类型具有不同的输入清单要求和属性。

适用于3D 点云任务类型,请参阅为 3D 点云标记作业创建输入清单文件.

适用于视频帧任务类型,请参阅创建视频帧输入清单文件.

清单是一个 UTF-8 编码的文件,其中每行都是完整且有效的 JSON 对象。每行都以标准换行符 \n 或 \r\n 分隔。由于每行都必须是有效的 JSON 对象,因此您不能使用未转义的换行符。有关数据格式的更多信息,请参阅 JSON 行。

清单文件中的每个 JSON 对象不得超过 100,000 个字符。对象中的任何单个属性都不能超过 20,000 个字符。属性名称不能以 $(美元符号)开头。

清单文件中的每个 JSON 对象必须包含以下键之一:source-refsource。密钥的值说明如下:

  • source-ref— 对象的源是在密钥值中指定的 Amazon S3 对象。当对象为二进制对象(如图像)时使用此值。

  • source— 对象的源是密钥值。当对象为文本值时使用此值。

以下是 Amazon S3 S3 S3 S3 S3 S3 S3 S3 S3 存储桶中存储的文件的清单文件示例。

{"source-ref": "S3 bucket location 1"} {"source-ref": "S3 bucket location 2"} ... {"source-ref": "S3 bucket location n"}

使用source-ref键,用于边界框、图像分类(单标签和多标签)、语义分割和视频分类标记作业视频剪辑。3D 点云和视频帧标注作业也使用source-ref键,但这些标记作业需要输入清单文件中的其他信息。有关更多信息,请参阅3D 点云输入数据视频帧输入数据

下面是一个含有输入数据(存储在清单中)的清单文件示例:

{"source": "Lorem ipsum dolor sit amet"} {"source": "consectetur adipiscing elit"} ... {"source": "mollit anim id est laborum"}

使用source键用于单标签和多标签文本分类以及命名实体识别标记作业。

您可以在清单文件中包括其他密钥值对。这些对将传递到输出文件且保持不变。当您希望在应用程序之间传递信息时,此方法很有用。有关更多信息,请参阅输出数据