本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
链接标记作业
Amazon SageMaker Ground Truth 可以通过两种方法重用以前作业中的数据集:克隆和链接。
克隆将复制以前标记作业的设置,并允许您在设置之前进行其他更改,然后再将其设置为运行。
链接 不仅使用以前作业的设置,而且还使用结果。这允许您继续执行未完成的作业,并将标签或数据对象添加到已完成的作业中。链接是一种更复杂的操作。
对于数据处理:
-
克隆将以前作业的 输入 清单(带有可选修改)作为新作业的输入清单。
-
链接将以前作业的 输出 清单作为新作业的输入清单。
当您需要执行以下操作时,链接非常有用:
-
继续执行手动停止的标记作业。
-
在修复问题后继续执行中间作业失败的标记作业。
-
在手动标记作业的一部分(或相反)后切换到自动数据标记。
-
将更多数据对象添加到完成的作业中,并从该位置启动作业。
-
将另一个注释添加到完成的作业中。例如,您具有一个为主题标记的短语集合,并希望再次运行该集合,请按主题的隐含受众对其进行分类。
在 Amazon SageMaker Ground Truth 中,您可以通过控制台或 API 配置链接的标记作业。
重要术语:标签属性名称
标签属性名称(API 中的 LabelAttributeName
)是一个用作键值对的键的字符串,它由工作人员为数据对象分配的标签构成。
以下规则适用于标记属性名称:
-
它不能以
-metadata
结束。 -
source
和source-ref
名称是保留的,不能使用这些名称。 -
对于语义分割标记作业,它必须以
-ref
结尾。对于所有其他标记作业,它不能 以-ref
结束。如果使用控制台创建作业,Amazon SageMaker Ground Truth 会自动将-ref
追加到除语义分割作业以外的所有标签属性名称。 -
对于链接的标记作业,如果您使用来自原始作业的相同标签属性名称,并将链接的作业配置为使用自动标记,当它在任何时候处于自动标记模式时,Ground Truth 将使用来自原始作业的模型。
在输出清单中,标签属性名称显示为类似于以下内容。
"source-ref": "<
S3 URI
>", "<label attribute name
>": { "annotations": [{ "class_id": 0, "width": 99, "top": 87, "height": 62, "left": 175 }], "image_size": [{ "width": 344, "depth": 3, "height": 234 }] }, "<label attribute name
>-metadata": { "job-name": "<job name
>", "class-map": { "0": "<label attribute name
>" }, "human-annotated": "yes", "objects": [{ "confidence": 0.09 }], "creation-date": "<timestamp
>", "type": "groundtruth/object-detection" }
如果您在控制台中创建一个作业,并且未明确设置标签属性名称值,则 Ground Truth 将作业名称作为该作业的标签属性名称。
启动链接作业(控制台)
从现有的作业列表中选择一个停止、失败或完成的标记作业。这会启用 Actions (操作) 菜单。
从 Actions (操作) 菜单中,选择 Chain (链接)。
作业概述面板
在 Job overview (作业概述) 面板中,新的 Job name (作业名称) 是根据您从中链接该作业的作业的标题设置的。您可以更改该名称。
您也可以指定与标记作业名称不同的标签属性名称。
如果您从完成的作业中进行链接,标签属性名称将使用您要配置的新作业的名称。要更改名称,请选中该复选框。
如果您从停止或失败的作业中进行链接,标签属性名称将使用您从中链接的作业的名称。可以轻松查看和编辑值,因为选中了名称复选框。
-
The default (默认值) 使用 Ground Truth 选择的标签属性名称。将标记没有将数据连接到该标签属性名称的所有数据对象。
-
如果 Using a label attribute name (使用标签属性名称) 在清单中不存在,将导致作业处理数据集中的所有 对象。
在这种情况下,将自动选择 input dataset location (输入数据集位置) 以作为链接的作业的输出清单。输入字段不可用,因此,您无法更改该字段。
您无法指定备用清单文件。请手动编辑以前作业的输出清单以添加新项目,然后再启动链接的作业。Amazon S3 URI 可帮助您查找在Amazon S3存储桶中存储清单的位置。从该位置下载清单文件,在计算机本地编辑它,然后上传新版本以替换它。确保在编辑期间不会引入错误。我们建议您使用 JSON linter 检查您的 JSON。很多常用的文本编辑器和 IDE 具有 linter 插件。
启动链接作业 (API)
该过程与使用 CreateLabelingJob
设置新的标记作业几乎相同,但有两个主要差别:
-
Manifest location (清单位置):
ManifestS3Uri
中的 值DataSource
应指向先前标记作业Amazon S3的输出清单的 URI,而不是使用以前作业中的原始清单。 -
标签属性名称:设置正确的
LabelAttributeName
值在此处是非常重要的。这是键值对的键部分,其中标记数据是值。示例使用案例包括:-
将新的或更具体的标签添加到已完成的作业 — 设置新的标签属性名称。
-
标记以前作业中的未标记项 — 使用以前作业中的标签属性名称。
-
使用部分标记的数据集
如果使用已部分标记的增强清单,您可以获得一些链接好处。请选中 Label attribute name (标签属性名称) 复选框并设置名称,以使它与清单中的名称相匹配。
如果您使用的是 API,说明与用于启动链接的作业的说明相同。但是,请务必将清单上传到 Amazon S3 存储桶并使用它,而不是使用以前作业的输出清单。
清单中的 Label attribute name (标签属性名称) 值必须符合前面讨论的命名注意事项。