本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
链接标记作业
Amazon SageMaker Ground Truth 可以通过两种方法重用以前作业中的数据集:克隆和链接。
克隆复制以前标记作业的设置,并允许您在设置以运行该作业之前进行其他更改。
链接 不仅使用以前作业的设置,而且还使用结果。这样,您就可以继续执行未完成的作业并将标签或数据对象添加到完成的作业中。链接是一种更复杂的操作。
对于数据处理:
克隆将以前作业的 输入 清单(带有可选修改)作为新作业的输入清单。
链接将以前作业的 输出 清单作为新作业的输入清单。
当您需要执行以下操作时,链接非常有用:
继续执行手动停止的标记作业。
在修复问题后继续执行中间作业失败的标记作业。
在作业的手动标记部分完成后切换到自动数据标记,反之亦然。
-
将更多数据对象添加到完成的作业中,并从该位置启动作业。
将另一个注释添加到完成的作业中。例如,您具有一个为主题标记的短语集合,并希望再次运行该集合,请按主题的隐含受众对其进行分类。
在 Amazon SageMaker Ground Truth 中,您可以通过控制台或 API 配置链接的标记作业。
关键术语:标签属性名称
标签属性名称(API 中的 LabelAttributeName
)是一个用作键值对的键的字符串,它由工作人员为数据对象分配的标签构成。
以下规则适用于标记属性名称:
它不能以
-metadata
结束。source
和source-ref
名称是保留的,不能使用这些名称。对于语义分割标记作业,它必须以
-ref
结尾。对于所有其他标记作业,它不能 以-ref
结束。如果您使用控制台创建作业,则 Amazon SageMaker Ground Truth 自动追加。-ref
除语义分割作业以外的所有标签属性名称。对于链接的标记作业,如果您使用来自原始作业的相同标签属性名称,并将链接的作业配置为使用自动标记,当它在任何时候处于自动标记模式时,Ground Truth 将使用来自原始作业的模型。
在输出清单中,标签属性名称显示为类似于以下内容。
"source-ref": "<
S3 URI
>", "<label attribute name
>": { "annotations": [{ "class_id": 0, "width": 99, "top": 87, "height": 62, "left": 175 }], "image_size": [{ "width": 344, "depth": 3, "height": 234 }] }, "<label attribute name
>-metadata": { "job-name": "<job name
>", "class-map": { "0": "<label attribute name
>" }, "human-annotated": "yes", "objects": [{ "confidence": 0.09 }], "creation-date": "<timestamp
>", "type": "groundtruth/object-detection" }
如果您在控制台中创建一个作业,并且未明确设置标签属性名称值,Ground Truth 将作业名称作为该作业的标签属性名称。
启动链接作业(控制台)
从现有的作业列表中选择一个停止、失败或完成的标记作业。这会启用 Actions (操作) 菜单。
从 Actions (操作) 菜单中,选择 Chain (链接)。
作业概述面板
在 Job overview (作业概述) 面板中,新的 Job name (作业名称) 是根据您从中链接该作业的作业的标题设置的。您可以更改该名称。
您也可以指定与标记作业名称不同的标签属性名称。
如果您从完成的作业中进行链接,标签属性名称将使用您要配置的新作业的名称。要更改名称,请选中该复选框。
如果您从停止或失败的作业中进行链接,标签属性名称将使用您从中链接的作业的名称。可以轻松查看和编辑该值,因为选中了名称复选框。
默认使用选择的标签属性名称。将标记没有将数据连接到该标签属性名称的所有数据对象。
如果 Using a label attribute name (使用标签属性名称) 在清单中不存在,将导致作业处理数据集中的所有 对象。
在这种情况下,将自动选择 input dataset location (输入数据集位置) 以作为链接的作业的输出清单。输入字段不可用,因此,您无法更改该字段。
您无法指定备用清单文件。请手动编辑以前作业的输出清单以添加新项目,然后再启动链接的作业。Amazon S3 URI 可以帮助您查找在 Amazon S3 存储桶中存储清单的位置。从中下载清单文件,在您的计算机本地编辑该文件,然后上传新版本以替换该文件。确保在编辑期间不会引入错误。我们建议您使用 JSON linter 检查您的 JSON。很多常用的文本编辑器和 IDE 具有 linter 插件。
启动链接作业 (API)
该过程与使用 CreateLabelingJob
设置新的标记作业几乎相同,但有两个主要差别:
清单位置:而不是使用之前工作中的原始清单,而是
ManifestS3Uri
中的DataSource
应该指向的 Amazon S3 URI输出清单来自以前的标记作业。标签属性名称:设置正确的
LabelAttributeName
价值在这里很重要。这是将标记数据作为值的键值对的键部分。示例使用案例包括:将新的或更具体的标签添加到完成的作业— 设置新的标签属性名称。
标记以前作业中的未标记项目— 使用以前作业中的标签属性名称。
使用部分标记的数据集
如果使用已部分标记的增强清单,您可以获得一些链接好处。请选中 Label attribute name (标签属性名称) 复选框并设置名称,以使它与清单中的名称相匹配。
如果您使用 API,则说明与启动链接的作业的说明相同。但是,请务必将清单上传到 Amazon S3 存储桶并使用清单,而不是使用以前作业中的输出清单。
这些区域有:标签属性名称清单中的值必须符合前面讨论的命名注意事项。