链接标注作业 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

链接标注作业

Amazon SageMaker Ground Truth 可以通过两种方法重用以前作业中的数据集:克隆和链接。

克隆可以复制之前标注作业的设置,并允许您在设置以运行该作业之前进行其他更改。

链接不仅使用之前作业的设置,而且还使用结果。这样,您就可以继续执行未完成的作业,并将标签或数据对象添加到完成的作业中。链接是一种更复杂的操作。

对于数据处理:

  • 克隆将以前作业的输入清单(带有可选修改)作为新作业的输入清单。

  • 链接将以前作业的输出清单作为新作业的输入清单。

当您需要执行以下操作时,链接非常有用:

  • 继续执行手动停止的标注作业。

  • 修复问题后,继续执行中途失败的标注作业。

  • 在作业的手动标注部分完成后切换到自动数据标注,反之亦然。

  • 将更多数据对象添加到已完成的作业中,并从此启动作业。

  • 将另一个注释添加到已完成的作业中。例如,您有一组按主题标注的短语,然后想再次运行这组短语,请按主题的隐含受众进行分类。

在 Amazon SageMaker Ground Truth 中,您可以通过控制台或 API 配置链接的标注作业。

重要术语:标签属性名称

标签属性名称(API 中的 LabelAttributeName)是一个用作键值对的键的字符串,它由工作人员为数据对象分配的标签构成。

以下规则适用于标签属性名称:

  • 它不能以 -metadata 结束。

  • sourcesource-ref 名称是保留的,不能使用这些名称。

  • 对于语义分割标注作业,它必须以 -ref 结尾。对于所有其他标注作业,它不能-ref 结束。如果使用控制台创建作业,Amazon SageMaker Ground Truth 会自动将 -ref 追加到除语义分割作业以外的所有标签属性名称。

  • 对于链接的标注作业,如果您使用来自原始作业的相同标签属性名称,并将链接的作业配置为使用自动标注,那么如果该作业在任何时候处于自动标注模式,Ground Truth 都会使用来自原始作业的模型。

在输出清单中,标签属性名称类似于下面的内容。

"source-ref": "<S3 URI>", "<label attribute name>": { "annotations": [{ "class_id": 0, "width": 99, "top": 87, "height": 62, "left": 175 }], "image_size": [{ "width": 344, "depth": 3, "height": 234 }] }, "<label attribute name>-metadata": { "job-name": "<job name>", "class-map": { "0": "<label attribute name>" }, "human-annotated": "yes", "objects": [{ "confidence": 0.09 }], "creation-date": "<timestamp>", "type": "groundtruth/object-detection" }

如果在控制台中创建作业,但没有明确设置标签属性名称值,Ground Truth 会将作业名称作为作业的标签属性名称。

启动链接的作业(控制台)

从现有作业列表中选择已停止、失败或已完成的标注作业。这会启用操作菜单。

操作菜单中,选择链接

作业概览面板

作业概览面板中,新的作业名称是根据您从中链接该作业的作业的标题设置的。您可以更改该名称。

您也可以指定与标注作业名称不同的标签属性名称。

如果您从完成的作业中进行链接,标签属性名称将使用您要配置的新作业的名称。要更改名称,请选中该复选框。

如果您从停止或失败的作业中进行链接,标签属性名称将使用您从中链接的作业的名称。可以轻松查看和编辑该值,因为选中了名称复选框。

属性标签命名注意事项
  • 默认值使用 Ground Truth 选择的标签属性名称。所有没有数据连接到该标签属性名的数据对象都会被标注。

  • 如果使用标签属性名称在清单中不存在,将导致作业处理数据集中的所有对象。

在这种情况下,将自动选择输入数据集位置以作为链接的作业的输出清单。输入字段不可用,因此,您无法更改该字段。

将数据对象添加到标注作业

您无法指定备用清单文件。请手动编辑以前作业的输出清单以添加新项目,然后再启动链接的作业。Amazon S3 URI 有助于您查找在 Amazon S3 存储桶中存储清单的位置。请从该位置中下载清单文件,在您的电脑上本地编辑该文件,然后上传新版本以替换该文件。确保在编辑期间不会引入错误。我们建议您使用 JSON linter 检查 JSON。很多常用的文本编辑器和 IDE 具有 linter 插件。

启动链接的作业 (API)

该过程与使用 CreateLabelingJob 设置新的标注作业几乎相同,但有两个主要差别:

  • 清单位置:并非使用以前作业中的原始清单,DataSource 中的 ManifestS3Uri 值应指向以前标注作业中的输出清单 的 Amazon S3 URI。

  • 标签属性名称:设置正确的 LabelAttributeName 值在此处是非常重要的。这是将标注数据作为值的键值对的键部分。示例使用案例包括:

    • 将新的或更具体的标签添加到完成的作业 – 设置新的标签属性名称。

    • 标注以前作业中的未标注项目 – 使用以前作业中的标签属性名称。

使用部分标注的数据集

如果使用已经部分标注的增强清单,您可以获得一些链接好处。选中标签属性名称复选框并设置名称,使其与清单中的名称一致。

如果您使用 API,则说明与启动链接作业的说明相同。不过,请务必将清单上传到 Amazon S3 存储桶并使用该清单,而不是使用以前作业中的输出清单。

清单中的标签属性名称值必须符合上面讨论的命名注意事项。