教程:开始使用 Amazon A2I 控制台 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

教程:开始使用 Amazon A2I 控制台

以下教程向您展示了如何在 Amazon A2I 控制台中开始使用 Amazon A2I。

本教程可以让您有机会将 Augmented AI 与 Amazon Textract 结合使用来进行文档审查,或者与 Amazon Rekognition 结合使用来进行图像内容审查。

先决条件

要开始使用 Amazon A2I,请先满足以下先决条件。

  • 在与您的输入和输出数据工作流程相同的 Amazon 区域中创建 Amazon S3 存储桶。例如,如果您在 us-east-1 中将 Amazon A2I 与 Amazon Textract 结合使用,请在 us-east-1 中创建存储桶。要创建存储桶,请按照《Amazon Simple Storage Service 控制台用户指南》中的创建存储桶的说明操作。

  • 请执行以下操作之一:

    • 如果您想使用 Amazon Textract 完成本教程,请下载下图并将其放入您的 Amazon S3 存储桶中。

      简短的求职申请
    • 如果您想使用 Amazon Rekognition 完成本教程,请下载下图并将其放入您的 Amazon S3 存储桶中。

      穿比基尼的女人在沙滩上做瑜伽
注意

Amazon A2I 控制台嵌入在控制台中。 SageMaker

步骤 1:创建工作团队

首先,在 Amazon A2I 控制台中创建一个工作团队,然后将自己添加为工作人员,这样您就可以预览工作人员审核任务。

重要

本教程使用私有工作团队。亚马逊 A2I 私人工作人员配置在 SageMaker 主机的 Ground Truth 区域,由亚马逊 A2I 和 Ground Truth 共享。

使用工作人员电子邮件创建私有人力
  1. 打开 SageMaker 控制台,网址为 https://console.aws.amazon.com/sagemaker/

  2. 在导航窗格中,选择 Ground Truth 下的标注人力

  3. 选择私有,然后选择创建私有团队

  4. 选择通过电子邮件邀请新工作人员

  5. 对于本教程,请输入您的电子邮件,以及任何其他您希望能够预览人工任务 UI 的人员的电子邮件。您可在电子邮件地址框中粘贴或键入包含最多 50 个电子邮件的列表,以逗号分隔。

  6. 输入组织名称和联系人电子邮件。

  7. (可选)选择团队订阅到的 Amazon SNS 主题,这样在有新的 Ground Truth 标注作业可用时,工作人员将收到通知。Ground Truth 支持 Amazon SNS 通知,而 Augmented AI 不支持。如果您将工作人员订阅到 Amazon SNS 通知,他们将仅接收有关 Ground Truth 标注作业的通知,而不会收到有关 Augmented AI 任务的通知。

  8. 选择创建私有团队

如果您将自己添加到私有工作团队,则会收到来自 no-reply@verificationemail.com 的电子邮件,其中提供了登录信息。使用此电子邮件中的链接重置密码,然后登录您的工作人员门户。在您创建人工循环时,人工审核任务就会显示在此处。

步骤 2:创建人工审核工作流

在此步骤中,您将创建人工审核工作流。每个人工审核工作流都是针对特定任务类型创建的。在本教程中,您可以在内置任务类型之间进行选择:Amazon Rekognition 和 Amazon Textract。

要创建人工审核工作流,请执行以下操作:
  1. 通过 https://console.aws.amazon.com/a2i 打开 Augmented AI 控制台,以访问人工审核工作流页面。

  2. 选择创建人工审核工作流

  3. 工作流程设置中,输入您为本教程创建的工作流程名称S3 存储桶AmazonAugmentedAIIntegratedAPIAccess附加 Amazon 托管策略的 IAM 角色

  4. 对于任务类型,选择 Textract – 键值对提取或者 Rekognition – 图像监管

  5. 选择您在下表中选择的任务类型,以获取该任务类型的说明。

    Amazon Textract – Key-value pair extraction

    1. 选择根据表单键置信度分数或在缺少特定表单键时触发对特定表单键的人工审核

    2. 在键名称中输入 Mail Address

    3. 设置介于 099 之间的标识置信度阈值。

    4. 设置介于 099 之间的资格置信度阈值。

    5. 选择通过在指定范围内的置信度分数来触发对 Amazon Textract 标识的所有表单键的人工审核

    6. 设置介于 090 之间的标识置信度阈值。

    7. 设置介于 090 之间的资格置信度阈值。

    如果 Amazon Textract 为 Mail Address 及其键返回的置信度分数低于 99,或者为在文档中检测到的任一键值对返回的置信度分数低于 90,则会启动人工审核。

    下图显示了 Amazon A2I 控制台的“Amazon Textract 表单提取 – 调用人工审核的条件”部分。在图片中,选中了前文解释的两种触发器类型的复选框,并且在第一个触发器中将 Mail Address 用作键名称。标识置信度阈值使用在表单中检测到的键值对的置信度分数来定义,设置为介于 0 到 99 之间。资格置信度阈值是使用键中包含的文本的置信度分数和表单中的值来定义的,设置为介于 0 到 99 之间。

    Amazon Textract 表单提取——调用亚马逊 A2I 控制台人工审核部分的条件
    Amazon Rekognition – Image moderation

    1. 选择针对 Amazon Rekognition 根据标签置信度分数标识的标签触发人工审核

    2. 设置介于 098 之间的阈值

    如果对于图像监管作业,Amazon Rekognition 返回的置信度分数低于 98,这将启动人工审核。

    下图显示了如何在 Amazon A2I 控制台中选择根据标签置信度分数对 Amazon Rekognition 标识的标签触发人工审核选项,并输入介于 0 和 98 之间的阈值

    Amazon Rekognition-图片审核——调用亚马逊 A2I 主机人工审核部分的条件
  6. 工作人员任务模板创建下,选择从默认模板创建

  7. 输入模板名称

  8. 任务描述字段中,输入以下文本:

    Read the instructions carefully and complete the task.

  9. 工作人员下,选择私有

  10. 选择您创建的私有团队。

  11. 选择创建

创建人工审核工作流后,它将显示在人工审核工作流页面上的表中。当状态Active 时,复制并保存工作流 ARN。您在下一个步骤中需要用到它。

步骤 3:启动人工循环

您必须使用 API 操作来启动人工循环。您可以使用各种特定于语言的 SDK 与这些 API 操作进行交互。要查看其中每个 SDK 的文档,请参阅 API 文档的另请参阅部分,如下图所示。

亚马逊 Textract API 文档另见部分的屏幕截图

在本教程中,您可以使用以下 API 之一:

  • 如果您选择了 Amazon Textract 任务类型,则可以使用 AnalyzeDocument 操作。

  • 如果您选择了 Amazon Rekognition 任务类型,则可以使用 DetectModerationLabels 操作。

您可以使用 SageMaker 笔记本实例(建议新用户使用)或 () 与这些 API 进行交互。 Amazon Command Line Interface Amazon CLI选择以下选项之一以详细了解这些选项:

在下表中选择您的任务类型,以查看使用 Amazon SDK for Python (Boto3)的 Amazon Textract 和 Amazon Rekognition 示例请求。

Amazon Textract – Key-value pair extraction

以下示例使用在 us-w Amazon SDK for Python (Boto3) est-2 analyze_document 中调用。使用您的资源替换斜体红色文本。如果您使用的是 Amazon Mechanical Turk 人力,请包括 DataAttributes 参数。有关更多信息,请参阅《Amazon SDK for Python (Boto) API 参考》中的 analyze_document 文档。

response = client.analyze_document( Document={ "S3Object": { "Bucket": "AWSDOC-EXAMPLE-BUCKET", "Name": "document-name.pdf" } }, HumanLoopConfig={ "FlowDefinitionArn":"arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name", "HumanLoopName":"human-loop-name", "DataAttributes" : { "ContentClassifiers":["FreeOfPersonallyIdentifiableInformation","FreeOfAdultContent"] } }, FeatureTypes=["TABLES", "FORMS"])
Amazon Rekognition – Image moderation

以下示例使用在 us-w Amazon SDK for Python (Boto3) est-2 detect_moderation_labels 中调用。使用您的资源替换斜体红色文本。如果您使用的是 Amazon Mechanical Turk 人力,请包括 DataAttributes 参数。有关更多信息,请参阅《Amazon SDK for Python (Boto) API 参考》中的 detect_moderation_labels 文档。

response = client.detect_moderation_labels( Image={ "S3Object":{ "Bucket": "AWSDOC-EXAMPLE-BUCKET", "Name": "image-name.png" } }, HumanLoopConfig={ "FlowDefinitionArn":"arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name", "HumanLoopName":"human-loop-name", "DataAttributes":{ ContentClassifiers:["FreeOfPersonallyIdentifiableInformation"|"FreeOfAdultContent"] } })

步骤 4:在控制台中查看人工循环状态

当您启动人工循环时,您可以在 Amazon A2I 控制台中查看其状态。

查看人工循环状态
  1. 通过 https://console.aws.amazon.com/a2i 打开 Augmented AI 控制台,以访问人工审核工作流页面。

  2. 选择用于启动人工循环的人工审核工作流。

  3. 人工循环部分中,您可以看到您的人工循环。在状态列中查看其状态。

步骤 5:下载输出数据

输出数据存储在您创建人工审核工作流时指定的 Amazon S3 存储桶中。

查看 Amazon A2I 输出数据
  1. 打开 Amazon S3 控制台

  2. 选择您在本示例的步骤 2 中,在创建人工审核工作流时指定的 Amazon S3 存储桶。

  3. 首先从以人工审核工作流命名的文件夹,选择具有以下命名约定的文件夹来导航到输出数据:

    s3://output-bucket-specified-in-human-review-workflow/human-review-workflow-name/YYYY/MM/DD/hh/mm/ss/human-loop-name/output.json
  4. 选择 output.json 并选择下载