链接标记作业 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

链接标记作业

Amazon SageMaker Ground Truth 可以通过两种方法重用以前作业中的数据集:克隆和链接。

克隆将复制以前标记作业的设置,并允许您在设置之前进行其他更改,然后再将其设置为运行。

链接 不仅使用以前作业的设置,而且还使用结果。这允许您继续执行未完成的作业,并将标签或数据对象添加到已完成的作业中。链接是一种更复杂的操作。

对于数据处理:

  • 克隆将以前作业的 输入 清单(带有可选修改)作为新作业的输入清单。

  • 链接将以前作业的 输出 清单作为新作业的输入清单。

当您需要执行以下操作时,链接非常有用:

  • 继续执行手动停止的标记作业。

  • 在修复问题后继续执行中间作业失败的标记作业。

  • 在手动标记作业的一部分(或相反)后切换到自动数据标记。

  • 将更多数据对象添加到完成的作业中,并从该位置启动作业。

  • 将另一个注释添加到完成的作业中。例如,您具有一个为主题标记的短语集合,并希望再次运行该集合,请按主题的隐含受众对其进行分类。

在 Amazon SageMaker Ground Truth 中,您可以通过控制台或 API 配置链接的标记作业。

重要术语:标签属性名称

标签属性名称(API 中的 LabelAttributeName)是一个用作键值对的键的字符串,它由工作人员为数据对象分配的标签构成。

以下规则适用于标记属性名称:

  • 它不能以 -metadata 结束。

  • sourcesource-ref 名称是保留的,不能使用这些名称。

  • 对于语义分割标记作业,它必须以 -ref 结尾。对于所有其他标记作业,它不能-ref 结束。如果使用控制台创建作业,Amazon SageMaker Ground Truth 会自动将 -ref 追加到除语义分割作业以外的所有标签属性名称。

  • 对于链接的标记作业,如果您使用来自原始作业的相同标签属性名称,并将链接的作业配置为使用自动标记,当它在任何时候处于自动标记模式时,Ground Truth 将使用来自原始作业的模型。

在输出清单中,标签属性名称显示为类似于以下内容。

"source-ref": "<S3 URI>", "<label attribute name>": { "annotations": [{ "class_id": 0, "width": 99, "top": 87, "height": 62, "left": 175 }], "image_size": [{ "width": 344, "depth": 3, "height": 234 }] }, "<label attribute name>-metadata": { "job-name": "<job name>", "class-map": { "0": "<label attribute name>" }, "human-annotated": "yes", "objects": [{ "confidence": 0.09 }], "creation-date": "<timestamp>", "type": "groundtruth/object-detection" }

如果您在控制台中创建一个作业,并且未明确设置标签属性名称值,则 Ground Truth 将作业名称作为该作业的标签属性名称。

启动链接作业(控制台)

从现有的作业列表中选择一个停止、失败或完成的标记作业。这会启用 Actions (操作) 菜单。

Actions (操作) 菜单中,选择 Chain (链接)

作业概述面板

Job overview (作业概述) 面板中,新的 Job name (作业名称) 是根据您从中链接该作业的作业的标题设置的。您可以更改该名称。

您也可以指定与标记作业名称不同的标签属性名称。

如果您从完成的作业中进行链接,标签属性名称将使用您要配置的新作业的名称。要更改名称,请选中该复选框。

如果您从停止或失败的作业中进行链接,标签属性名称将使用您从中链接的作业的名称。可以轻松查看和编辑值,因为选中了名称复选框。

属性标签命名注意事项
  • The default (默认值) 使用 Ground Truth 选择的标签属性名称。将标记没有将数据连接到该标签属性名称的所有数据对象。

  • 如果 Using a label attribute name (使用标签属性名称) 在清单中不存在,将导致作业处理数据集中的所有 对象。

在这种情况下,将自动选择 input dataset location (输入数据集位置) 以作为链接的作业的输出清单。输入字段不可用,因此,您无法更改该字段。

将数据对象添加到标记作业

您无法指定备用清单文件。请手动编辑以前作业的输出清单以添加新项目,然后再启动链接的作业。Amazon S3 URI 可帮助您查找在Amazon S3存储桶中存储清单的位置。从该位置下载清单文件,在计算机本地编辑它,然后上传新版本以替换它。确保在编辑期间不会引入错误。我们建议您使用 JSON linter 检查您的 JSON。很多常用的文本编辑器和 IDE 具有 linter 插件。

启动链接作业 (API)

该过程与使用 CreateLabelingJob 设置新的标记作业几乎相同,但有两个主要差别:

  • Manifest location (清单位置): ManifestS3Uri 中的 值DataSource应指向先前标记作业Amazon S3的输出清单的 URI,而不是使用以前作业中的原始清单

  • 标签属性名称:设置正确的 LabelAttributeName 值在此处是非常重要的。这是键值对的键部分,其中标记数据是值。示例使用案例包括:

    • 将新的或更具体的标签添加到已完成的作业 — 设置新的标签属性名称。

    • 标记以前作业中的未标记项 — 使用以前作业中的标签属性名称。

使用部分标记的数据集

如果使用已部分标记的增强清单,您可以获得一些链接好处。请选中 Label attribute name (标签属性名称) 复选框并设置名称,以使它与清单中的名称相匹配。

如果您使用的是 API,说明与用于启动链接的作业的说明相同。但是,请务必将清单上传到 Amazon S3 存储桶并使用它,而不是使用以前作业的输出清单。

清单中的 Label attribute name (标签属性名称) 值必须符合前面讨论的命名注意事项。