使用 Amazon Mechanical Turk 人力 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

使用 Amazon Mechanical Turk 人力

Amazon Mechanical Turk (Mechanical Turk) 人力为您的 Amazon SageMaker Ground Truth 标注作业和 Amazon Augmented AI 人工审核任务提供了最多的工作人员。Amazon Mechanical Turk 人力是一种全球性资源。工作人员每周 7 天、每天 24 小时提供服务。使用 Amazon Mechanical Turk 人力时,您通常能以最快的速度完成人工审核任务和标注作业。

任何 Amazon Mechanical Turk 人力的账单都将作为 Ground Truth 或 Amazon Augmented AI 账单的一部分进行处理。您不需要创建单独的 Mechanical Turk 账户来使用 Amazon Mechanical Turk 人力。

重要

您不应与此人力共享机密信息、个人信息或受保护的健康信息。当您将 Amazon A2I 与符合 Amazon HIPAA 标准的服务(如 Amazon Textract 和 Amazon Rekognition)一起用于包含受保护健康信息的工作负载时,不应使用 Amazon Mechanical Turk 人力。

在创建 Ground Truth 标注作业或 Amazon A2I 人工审核工作流(流程定义)时,您可以选择 Mechanical Turk 作为人力。您可以使用 SageMaker 控制台和 API 创建标注作业和人工审核工作流。

使用 API 操作创建标注作业或人工审核工作流时,需要为您的 WorkteamArn 使用以下 Amazon Mechanical Turk 人力的 ARN。将 region 替换为用于创建标注作业或人工循环的 Amazon 区域。例如,如果您在美国西部(俄勒冈州)创建标注作业,请将 region 替换为 us-west-2

  • arn:aws:sagemaker:region:394669845002:workteam/public-crowd/default

Ground Truth 和 Amazon A2I 要求您在使用 Mechanical Turk 时输入的数据不包含个人身份信息 (PII)。如果您使用 Mechanical Turk 人力,但未指定输入数据不含 PII,那么您的 Ground Truth 标注作业和 Augmented AI 任务将失败。在创建 Ground Truth 标注作业时,以及在使用内置集成或 StartHumanLoop 操作创建 Amazon A2I 人工循环时,您需要指定输入数据不含 PII。

请使用以下部分了解如何将 Mechanical Turk 与这些服务结合使用。

使用 Mechanical Turk 与 Ground Truth

在使用控制台或 CreateLabelingJob 操作创建标注作业时,您可以将 Mechanical Turk 与 Ground Truth 结合使用。

在创建标注作业时,我们建议您根据作业的复杂程度和所需质量来调整对每个数据对象进行注释的工作人员数量。Amazon SageMaker Ground Truth 使用注释合并来提高标签的质量。对于较复杂的标注作业,更多的工作人员可以提高标签的质量,但对于较简单的作业,工作人员的数量可能不会有什么影响。有关更多信息,请参阅 合并注释。请注意,Amazon A2I 人工审核工作流不支持注释合并。

在创建标注作业时使用 Mechanical Turk(控制台):
  1. 可以通过以下过程使用 SageMaker 控制台的 Ground Truth 区域创建标注作业:创建标注作业(控制台)

  2. 工作人员部分选择工作人员类型时,请选择 Amazon Mechanical Turk

  3. 使用任务超时指定工作人员完成任务所需的总时间。

  4. 任务到期中指定任务仍可供工作人员使用的总时间。这是在任务失败之前,工作人员需要多长时间来完成任务。

  5. 使用下拉列表选择每个任务的价格。这是工作人员完成单项任务所获得的金额。

  6. (可选)如果适用,请选择数据集不含成人内容。如果任务包含成人内容,SageMaker 可能会限制 Mechanical Turk 工作人员查看您的任务。

  7. 您必须阅读并确认以下声明,选中复选框以使用 Mechanical Turk 人力。如果您的输入数据包含机密信息、个人信息或受保护的健康信息,则必须选择其他人力。

    您理解并同意,Mechanical Turk 人力由位于世界各地的独立承包商组成,您不应与该人力共享机密信息、个人信息或受保护的健康信息。

  8. (可选)如果要启用自动数据标注,请选中启用自动数据标注旁边的复选框。要了解有关此功能的更多信息,请参阅自动数据标注

  9. 您可以在其他配置下指定每个数据集对象的工作人员数。例如,如果在此字段中输入 3,则每个数据对象将由 3 个工作人员标注。

通过选择创建来创建标注作业时,标注任务将发送给 Mechanical Turk 工作人员。

在创建标注作业时使用 Mechanical Turk (API):
  1. 通过以下过程使用 CreateLabelingJob 操作创建标注作业:创建标注作业 (API)

  2. WorkteamArn 使用以下内容。将 region 替换为用于创建标注作业的 Amazon 区域。

    arn:aws:sagemaker:region:394669845002:workteam/public-crowd/default

  3. 使用 TaskTimeLimitInSeconds 指定工作人员完成任务所需的总时间。

  4. 使用 TaskAvailabilityLifetimeInSeconds 指定任务仍可供工作人员使用的总时间。这是在任务失败之前,工作人员需要多长时间来完成任务。

  5. 使用 NumberOfHumanWorkersPerDataObject 指定每个数据集对象的工作人员数。

  6. 使用 PublicWorkforceTaskPrice 设置每个任务的价格。这是工作人员完成单项任务所获得的金额。

  7. 使用 DataAttributes 指定您的输入数据不含机密信息、个人信息或受保护的健康信息。

    如果您使用 Mechanical Turk 人力,Ground Truth 要求您的输入数据不包含个人身份信息 (PII)。如果您使用 Mechanical Turk,但没有使用 FreeOfPersonallyIdentifiableInformation 标志指定输入数据不含 PII,那么您的标注作业将失败。

    使用 FreeOfAdultContent 标志声明您的输入数据不含成人内容。如果您的任务包含成人内容,SageMaker 可能会限制 Mechanical Turk 工作人员查看您的任务。

有关如何在以下笔记本中使用此 API 的示例,请参阅 GitHub 中的 Ground Truth Jupyter 笔记本示例。您可以在笔记本实例中的 SageMaker 示例笔记本 下访问这些笔记本。

将 Mechanical Turk 与 Amazon A2I 结合使用

在控制台中或使用 CreateFlowDefinition API 操作创建人工审核工作流(也称为流程定义)时,您可以指定要将 Mechanical Turk 与 Amazon A2I 结合使用。使用此人工审核工作流配置人工循环时,必须指定输入数据不含 PII。

在创建人工审核工作流时使用 Mechanical Turk(控制台):
  1. 通过以下过程在 SageMaker 控制台的 Augmented AI 部分创建人工审核工作流:创建人工审核工作流(控制台)

  2. 工作人员部分选择工作人员类型时,请选择 Amazon Mechanical Turk

  3. 使用下拉列表选择每个任务的价格。这是工作人员完成单项任务所获得的金额。

  4. (可选)您可以在其他配置下指定每个数据集对象的工作人员数。例如,如果在此字段中输入 3,则每个数据对象将由 3 个工作人员标注。

  5. (可选)使用任务超时指定工作人员完成任务所需的总时间。

  6. (可选)在任务到期中指定任务仍可供工作人员使用的总时间。这是在任务失败之前,工作人员需要多长时间来完成任务。

  7. 创建人工审核工作流后,您可以通过在参数 FlowDefinitionArn 中提供该工作流的 Amazon 资源名称 (ARN) 来使用该工作流配置人工循环。您可以使用内置任务类型的 API 操作之一或 Amazon A2I 运行时 API 操作 StartHumanLoop 来配置人工循环。要了解更多信息,请参阅创建和启动人工循环

    配置人工循环时,必须使用 DataAttributes 中的 FreeOfPersonallyIdentifiableInformation 内容分类器指定输入数据不含个人身份信息 (PII)。如果您使用 Mechanical Turk,但未指定输入数据不含 PII,那么您的人工审核任务将会失败。

    使用 FreeOfAdultContent 标志声明您的输入数据不含成人内容。如果您的任务包含成人内容,SageMaker 可能会限制 Mechanical Turk 工作人员查看您的任务。

在创建人工审核工作流时使用 Mechanical Turk (API):
  1. 通过以下过程使用 CreateFlowDefinition 操作创建人工审核工作流:创建人工审核工作流 (API)

  2. WorkteamArn 使用以下内容。将 region 替换为用于创建标注作业的 Amazon 区域。

    arn:aws:sagemaker:region:394669845002:workteam/public-crowd/default

  3. 使用 TaskTimeLimitInSeconds 指定工作人员完成任务所需的总时间。

  4. 使用 TaskAvailabilityLifetimeInSeconds 指定任务仍可供工作人员使用的总时间。这是在任务失败之前,工作人员需要多长时间来完成任务。

  5. 使用 TaskCount 指定每个数据集对象的工作人员数。例如,如果您为此参数指定 3,则每个数据对象将由 3 个工作人员标注。

  6. 使用 PublicWorkforceTaskPrice 设置每个任务的价格。这是工作人员完成单项任务所获得的金额。

  7. 创建人工审核工作流后,您可以通过在参数 FlowDefinitionArn 中提供该工作流的 Amazon 资源名称 (ARN) 来使用该工作流配置人工循环。您可以使用内置任务类型的 API 操作之一或 Amazon A2I 运行时 API 操作 StartHumanLoop 来配置人工循环。要了解更多信息,请参阅创建和启动人工循环

    配置人工循环时,必须使用 DataAttributes 中的 FreeOfPersonallyIdentifiableInformation 内容分类器指定输入数据不含个人身份信息 (PII)。如果您使用 Mechanical Turk,但未指定输入数据不含 PII,那么您的人工审核任务将会失败。

    使用 FreeOfAdultContent 标志声明您的输入数据不含成人内容。如果您的任务包含成人内容,SageMaker 可能会限制 Mechanical Turk 工作人员查看您的任务。

有关如何在以下笔记本中使用此 API 的示例,请参阅 GitHub 中的 Amazon A2I Jupyter 笔记本示例

何时不支持 Mechanical Turk?

在以下情况下不支持该人力。在每种情况下,都必须使用私有供应商人力。

  • Ground Truth 视频帧标注作业和 3D 点云标注作业不支持该人力。

  • 如果您的输入数据包含个人身份信息 (PII),则无法使用该人力。

  • Mechanical Turk 在 Amazon 的某些特殊区域不可用。如果适用,请参阅您所在特殊区域的文档以了解更多信息。