创建标记作业(控制台) - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建标记作业(控制台)

您可以使用 Amazon SageMaker 控制台为所有 Ground Truth 内置任务类型和自定义标记工作流创建标记作业。对于内置任务类型,我们建议您将此页面与任务类型的https://docs.amazonaws.cn/sagemaker/latest/dg/sms-task-types.html页面一起使用。每个任务类型页面都包含有关使用该任务类型创建标记作业的特定详细信息。

您需要提供以下内容以在 SageMaker 控制台中创建标记作业:

  • Amazon S3 中的输入清单文件。您可以将输入数据集放在 中Amazon S3,并使用 Ground Truth 控制台自动生成清单文件(对于 3D 点云标记作业不受支持)。

    或者,您也可以手动创建输入清单文件。要了解如何操作,请参阅输入数据

  • 存储输出数据的 Amazon S3 存储桶。

  • 一个 角色,该IAM角色有权访问您在 中的资源Amazon S3并附加了SageMaker执行策略。对于常规解决方案,您可以将 托管策略 AmazonSageMakerFullAccess 附加到 IAM 角色,并在存储桶名称sagemaker中包含 。

    有关更精细的策略,请参阅分配使用 IAM 的 Ground Truth 权限

    3D 点云任务类型具有其他安全注意事项。了解更多

  • 工作团队。您可以从由Amazon Mechanical Turk工作人员、供应商或您自己的私有工作人员组成的人力中创建工作团队。要了解更多信息,请参阅创建和管理人力

    您无法将 Mechanical Turk 人力用于 3D 点云或视频帧标记作业。

  • 如果使用自定义标记工作流,您必须在 Amazon S3 中保存工作人员任务模板,并为该模板提供 Amazon S3 URI。有关更多信息,请参阅步骤 2:创建您的自定义标记任务模板

  • (可选)如果希望 AWS KMS 使用您自己的 SageMaker 加密密钥对标记作业输出进行加密,而不是使用默认 AWS KMS 服务密钥,则需要提供 Amazon S3 密钥 ARN。

  • (可选)用于标记作业的数据集的现有标签。如果您希望工作人员调整、批准或拒绝标签,请使用该选项。

  • 如果要创建调整或验证标记作业,则必须在 中有一个输出清单文件,其中包含要调整或验证Amazon S3的标签。此选项仅支持边界框和语义分割图像标记作业以及 3D 点云和视频帧标记作业。建议您使用 上的说明验证和调整标签创建验证或调整标记作业。

重要

您的工作组、输入清单文件、输出存储桶以及 Amazon S3 中的其他资源必须位于用来创建标记作业的同一 AWS 区域中。

使用SageMaker控制台创建标记作业时,您可以将工作人员说明和标签添加到 Ground Truth 提供的工作人员 UI。在 控制台中创建标记作业时,您可以预览工作人员 UI 并与之交互。您还可以在内置任务类型页面上查看工作人员 UI 的预览。

创建标记作业(控制台)

  1. 登录到 SageMaker 控制台 https://console.aws.amazon.com/sagemaker/groundtruth()。

  2. 在左侧导航窗格中,选择 Labeling jobs (标记作业)

  3. Labeling jobs (标记作业) 页面上,选择 Create labeling job (创建标记作业)

  4. 对于 Job name (作业名称),请输入标记作业的名称。

  5. (可选)如果要使用一个键以标识标签,请选择 I want to specify a label attribute name different from the labeling job name (我希望指定与标记作业名称不同的标签属性名称)。如果未选择该选项,将使用在上一步中指定的标记作业名称在输出清单文件中标识标签。

  6. 选择数据设置以设置您的输入数据集和 Ground Truth 之间的连接。

    • 对于 Automated data setup (自动数据设置):

    • 对于 Manual data setup (手动数据设置):

      • 对于 Input dataset location (输入数据集位置),请提供输入清单文件在 Amazon S3 中的位置。例如,如果您的输入清单文件 manifest.json 位于 example-bucket 中,请输入 s3

      • 对于 Output dataset location (输出数据集位置),请提供您希望 Amazon S3 在 Ground Truth 中存储标记作业的输出数据的位置。

  7. 对于 IAM Role (角色),选择一个现有IAM角色或创建一个 IAM 角色,该角色有权访问您在 中的资源Amazon S3、写入到上面指定的输出Amazon S3存储桶并附加了SageMaker执行策略。

  8. (可选)对于 Additional configuration (其他配置),您可以指定希望工作人员标记数据集的哪些部分,以及是否希望 SageMaker 使用 AWS KMS 加密密钥对标记作业的输出数据进行加密。要对输出数据进行加密,您必须将所需的 AWS KMS 权限附加到在上一步中提供的 IAM 角色。有关更多信息,请参阅分配使用 IAM 的 Ground Truth 权限

  9. Task type (任务类型) 部分的 Task category (任务类别) 下,使用下拉列表选择您的任务类别。

  10. Task selection (任务选择) 中,选择任务类型。

  11. (可选)为标记作业提供标签,以便以后在控制台中轻松找到该作业。

  12. 选择 Next

  13. Workers (工作人员) 部分中,选择您要使用的人力类型。有关人力选项的更多详细信息,请参阅创建和管理人力

  14. (可选)在选择人力后,指定任务超时。这是为工作人员处理任务提供的最长时间。

    对于 3D 点云注释任务,默认任务超时为 3 天。文本和图像分类以及标签验证标记作业的默认超时为 5 分钟。所有其他标记作业的默认超时为 60 分钟。

  15. (可选)对于边界框、语义分割、视频帧和 3D 点云任务类型,如果要显示输入数据集的标签以供工作人员验证或调整,您可以选择 Display existing labels (显示现有标签)。

    对于边界框和语义分割标记作业,这将创建调整标记作业。

    对于 3D 点云和视频帧标记作业:

    • 选择调整以创建调整标记作业。选择此选项后,您可以添加新标签,但不能从上一个作业中删除或编辑现有标签。(可选)您可以选择希望工作人员编辑的标签类别属性和帧属性。要使属性可编辑,请选中允许工作人员编辑该属性的复选框。

      (可选)您可以添加新的标签类别和帧属性。

    • 选择 Verification (验证) 以创建调整标记作业。选择此选项时,您无法在上一个作业中添加、修改或删除现有标签。(可选)您可以选择希望工作人员编辑的标签类别属性和帧属性。要使属性可编辑,请选中允许工作人员编辑该属性的复选框。

      我们建议您将新的标签类别属性添加到希望工作人员验证的标签中,或者添加一个或多个帧属性以让工作人员提供有关整个帧的信息。

    有关更多信息,请参阅验证和调整标签

  16. 配置工作人员的 UI:

    • 如果您使用的是内置任务类型,请指定工作人员说明和标签。

      • 对于图像分类和文本分类(单标签和多标签),您必须指定至少两个标签类别。对于所有其他内置任务类型,您必须至少指定一个标签类别。

      • (可选)如果要创建 3D 点云或视频帧标记作业,您可以指定标签类别属性(对于 3D 点云语义分割不支持)和帧属性。可以将标签类别属性分配给一个或多个标签。帧属性将显示在每个点云或视频帧工作人员标签上。要了解更多信息,请参阅工作人员用户界面 (UI)适用于 3D 点云的 和适用于视频帧工作人员用户界面 (UI)的 。

      • (可选)添加 Additional instructions (其他说明) 以帮助工作人员完成任务。

    • 如果要创建自定义标记作业,则必须 :

      • 在代码框中输入自定义模板。可以使用 HTML、 Liquid 模板语言和我们预构建的 Web 组件的组合来创建自定义模板。(可选)您可以从下拉菜单中选择基本模板以开始使用。

      • 指定注释前和注释后 lambda 函数。要了解如何创建这些 函数,请参阅 步骤 3:使用 AWS Lambda 进行处理

  17. (可选)您可以选择 See preview (查看预览) 以预览工作人员说明、标签并与工作人员 UI 交互。在生成预览之前,确保已禁用浏览器的弹出窗口阻止程序。

  18. 选择创建

在成功创建标记作业后,您将重定向到 Labeling jobs (标记作业) 页面。您刚刚创建的标记作业的状态为 In progress (正在进行)。在工作人员完成任务时,将逐渐更新该状态。在成功完成所有任务后,该状态将变为 Completed (已完成)

如果在创建标记作业时出现问题,其状态更改为 Failed (失败)。如果一个或多个数据对象

要查看有关作业的更多详细信息,请选择标记作业名称。

后续步骤

在标记作业状态变为 Completed (已完成) 后,您可以在创建该标记作业时指定的 Amazon S3 存储桶中查看输出数据。有关输出数据格式的更多信息,请参阅输出数据