教程:开始使用 Amazon A2I 控制台 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

教程:开始使用 Amazon A2I 控制台

以下教程向您展示了如何在 Amazon A2I 控制台中开始使用 Amazon A2I。

本教程允许您选择将 Augmented AI 与 Amazon Textract 结合使用来进行文档审查,或者与 Amazon Rekognition 结合使用来进行图像内容审查。

先决条件

要开始使用 Amazon A2I,请先满足以下先决条件。

  • 在与输入和输出数据的工作流所在的同一 Amazon 区域中,创建 Amazon S3 存储桶。例如,如果您在 us-east-1 中将 Amazon A2I 与 Amazon Textract 结合使用,请在 us-east-1 中创建存储桶。要创建存储桶,请按照《Amazon Simple Storage Service 控制台用户指南》中的创建存储桶的说明操作。

  • 请执行下列操作之一:

    • 如果您想使用 Amazon Textract 完成教程,请下载此示例文档,然后将文档放入您的 Amazon S3 存储桶中。

    • 如果您想使用 Amazon Rekognition 完成本教程,请下载此图像并放入您的 Amazon S3 存储桶中。

注意

Amazon A2I 控制台嵌入在 SageMaker 控制台中。

步骤 1:创建工作团队

首先,在 Amazon A2I 控制台中创建一个工作团队,然后将自己添加为工作人员,这样您就可以预览工作人员审核任务。

重要

本教程使用私有工作团队。Amazon A2I 私有人力在 SageMaker 控制台的 Ground Truth 区域配置,此资源在 Amazon A2I 和 Ground Truth 之间共享。

使用工作人员电子邮件创建私有人力
  1. 通过 https://console.aws.amazon.com/sagemaker/ 打开 SageMaker 控制台。

  2. 在导航窗格中,选择 Ground Truth 下的标注人力

  3. 选择私有,然后选择创建私有团队

  4. 选择通过电子邮件邀请新工作人员

  5. 对于本教程,请输入您的电子邮件,以及任何其他您希望能够预览人工任务 UI 的人员的电子邮件。您可在电子邮件地址框中粘贴或键入包含最多 50 个电子邮件的列表,以逗号分隔。

  6. 输入组织名称和联系人电子邮件。

  7. (可选)选择团队订阅到的 Amazon SNS 主题,这样在有新的 Ground Truth 标注作业可用时,工作人员将收到通知。Ground Truth 支持 Amazon SNS 通知,而 Augmented AI 不支持。如果您将工作人员订阅到 Amazon SNS 通知,他们将仅接收有关 Ground Truth 标注作业的通知,而不会收到有关 Augmented AI 任务的通知。

  8. 选择创建私有团队

如果您将自己添加到私有工作团队,则会收到来自 no-reply@verificationemail.com 的电子邮件,其中提供了登录信息。使用此电子邮件中的链接重置密码,然后登录您的工作人员门户。在您创建人工循环时,人工审核任务就会显示在此处。

步骤 2:创建人工审核工作流

在此步骤中,您将创建人工审核工作流。每个人工审核工作流都是针对特定任务类型创建的。在本教程中,您可以在内置任务类型之间进行选择:Amazon Rekognition 和 Amazon Textract。

要创建人工审核工作流,请执行以下操作:
  1. 通过 https://console.aws.amazon.com/a2i 打开 Augmented AI 控制台,以访问人工审核工作流页面。

  2. 选择创建人工审核工作流

  3. 工作流设置中,输入工作流的名称S3 存储桶,以及您为本教程创建的 IAM 角色和所附加的 Amazon 托管策略 AmazonAugmentedAIIntegratedAPIAccess

  4. 对于任务类型,选择 Textract – 键值对提取或者 Rekognition – 图像审核

  5. 选择您在下表中选择的任务类型,以获取该任务类型的说明。

    Amazon Textract – Key-value pair extraction

    1. 选择根据表单键置信度分数或在缺少特定表单键时触发对特定表单键的人工审核

    2. 在键名称中输入 Mail Address

    3. 设置介于 099 之间的标识置信度阈值。

    4. 设置介于 099 之间的资格置信度阈值。

    5. 选择通过在指定范围内的置信度分数来触发对 Amazon Textract 标识的所有表单键的人工审核

    6. 设置介于 090 之间的标识置信度阈值。

    7. 设置介于 090 之间的资格置信度阈值。

    如果对于 Mail Address 及其键,Amazon Textract 返回的置信度分数低于 99,或者对于在文档中检测到的任何键值对,返回的置信度分数低于 90,则会启动人工审核。

    下图显示了 Amazon A2I 控制台的“Amazon Textract 表单提取 – 调用人工审核的条件”部分。在图片中,选中了前文解释的两种触发器类型的复选框,并且在第一个触发器中将 Mail Address 用作键名称。标识置信度阈值使用在表单中检测到的键值对的置信度分数来定义,设置为介于 0 到 99 之间。资格置信度阈值是使用键中包含的文本的置信度分数和表单中的值来定义的,设置为介于 0 到 99 之间。

    Amazon Rekognition – Image moderation

    1. 选择针对 Amazon Rekognition 根据标签置信度分数标识的标签触发人工审核

    2. 设置介于 098 之间的阈值

    如果对于图像审核作业,Amazon Rekognition 返回的置信度分数低于 98,这将启动人工审核。

    下图显示了在 Amazon A2I 中,如何选择针对 Amazon Rekognition 根据标签置信度分数标识的标签触发人工审核选项,并输入介于 0 和 98 之间的阈值

  6. 工作人员任务模板创建下,选择从默认模板创建

  7. 输入模板名称

  8. 任务描述字段中,输入以下文本:

    Read the instructions carefully and complete the task.

  9. 工作人员下,选择私有

  10. 选择您创建的私有团队。

  11. 选择创建

创建人工审核工作流后,它将显示在人工审核工作流页面上的表中。当状态Active 时,复制并保存工作流 ARN。您在下一个步骤中需要用到它。

步骤 3:启动人工循环

您必须使用 API 操作来启动人工循环。您可以使用各种特定于语言的 SDK 与这些 API 操作进行交互。要查看其中每个 SDK 的文档,请参阅 API 文档的另请参阅部分,如下图所示。

在本教程中,您可以使用以下 API 之一:

  • 如果您选择了 Amazon Textract 任务类型,则可以使用 AnalyzeDocument 操作。

  • 如果您选择了 Amazon Rekognition 任务类型,则可以使用 DetectModerationLabels 操作。

您可以使用 SageMaker 笔记本实例(建议新用户使用)或 Amazon Command Line Interface (Amazon CLI) 与这些 API 进行交互。选择以下选项之一以详细了解这些选项:

在下表中选择您的任务类型,以查看使用 Amazon SDK for Python (Boto3) 的 Amazon Textract 和 Amazon Rekognition 示例请求。

Amazon Textract – Key-value pair extraction

以下示例使用 Amazon SDK for Python (Boto3) 调用 us-west-2 中的 analyze_document。使用您的资源替换斜体红色文本。如果您使用的是 Amazon Mechanical Turk 人力,请包括 DataAttributes 参数。有关更多信息,请参阅《Amazon SDK for Python (Boto) API 参考》中的 analyze_document 文档。

response = client.analyze_document( Document={ "S3Object": { "Bucket": "AWSDOC-EXAMPLE-BUCKET", "Name": "document-name.pdf" } }, HumanLoopConfig={ "FlowDefinitionArn":"arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name", "HumanLoopName":"human-loop-name", "DataAttributes" : { "ContentClassifiers":["FreeOfPersonallyIdentifiableInformation","FreeOfAdultContent"] } }, FeatureTypes=["TABLES", "FORMS"])
Amazon Rekognition – Image moderation

以下示例使用 Amazon SDK for Python (Boto3) 调用 us-west-2 中的 detect_moderation_labels。使用您的资源替换斜体红色文本。如果您使用的是 Amazon Mechanical Turk 人力,请包括 DataAttributes 参数。有关更多信息,请参阅《Amazon SDK for Python (Boto) API 参考》中的 detect_moderation_labels 文档。

response = client.detect_moderation_labels( Image={ "S3Object":{ "Bucket": "AWSDOC-EXAMPLE-BUCKET", "Name": "image-name.png" } }, HumanLoopConfig={ "FlowDefinitionArn":"arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name", "HumanLoopName":"human-loop-name", "DataAttributes":{ ContentClassifiers:["FreeOfPersonallyIdentifiableInformation"|"FreeOfAdultContent"] } })

步骤 4:在控制台中查看人工循环状态

当您启动人工循环时,您可以在 Amazon A2I 控制台中查看其状态。

查看人工循环状态
  1. 通过 https://console.aws.amazon.com/a2i 打开 Augmented AI 控制台,以访问人工审核工作流页面。

  2. 选择用于启动人工循环的人工审核工作流。

  3. 人工循环部分中,您可以看到您的人工循环。在状态列中查看其状态。

步骤 5:下载输出数据

输出数据存储在您创建人工审核工作流时指定的 Amazon S3 存储桶中。

查看 Amazon A2I 输出数据
  1. 打开 Amazon S3 控制台

  2. 选择您在本示例的步骤 2 中,在创建人工审核工作流时指定的 Amazon S3 存储桶。

  3. 首先从以人工审核工作流命名的文件夹,选择具有以下命名约定的文件夹来导航到输出数据:

    s3://output-bucket-specified-in-human-review-workflow/human-review-workflow-name/YYYY/MM/DD/hh/mm/ss/human-loop-name/output.json
  4. 选择 output.json 并选择下载