教程:使用 Amazon A2I 控制台入门 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

教程:使用 Amazon A2I 控制台入门

以下教程介绍了如何在亚马逊 A2I 控制台中开始使用亚马逊 A2I。

本教程使您可以选择将 Augmented AI 与 Amazon Textract 结合使用进行文档审查,或使用亚马逊重新审查图片内容。

Prerequisites

要开始使用 Amazon A2I,请满足以下先决条件:

  • Amazon S3 一Amazon区域作为输入和输出数据的工作流。例如,如果您将 Amazon A2I 与 us-east-1 中的 Amazon Textract 结合使用,请在 us-east-1 中创建存储桶。要创建存储桶,请按照创建存储桶中的Amazon Simple Storage Service 控制台用户指南.

  • 请执行下列操作之一:

    • 如果您想使用 Amazon Textract 完成本教程,请下载此示例文档中)并将其放在您的 Amazon S3 存储桶中。

    • 如果您想使用 Amazon Rekognition 请完成本教程,请下载此映像并将其放在您的 Amazon S3 存储桶中。

注意

亚马逊 A2I 控制台嵌入到 SageMaker 控制台中。

第 1 步:创建工作团队

首先,在 Amazon A2I 控制台中创建一个工作团队,并将自己添加为工作人员,以便您可以预览工作人员审核任务。

重要

本教程使用私人工作团队。亚马逊 A2I 私人员工队伍在 SageMaker 控制台的 Ground Truth 区域中配置,并在 Amazon A2I 和 Ground Truth 之间共享。

使用工作人员电子邮件创建私有人力

  1. 从打开 SageMaker 控制台https://console.aws.amazon.com/sagemaker/.

  2. 在导航窗格中,选择贴上工作人员INTOGround Truth.

  3. 选择 Private (私有),然后选择 Create private team (创建私有团队)

  4. 选择 Invite new workers by email (通过电子邮件邀请新工作人员)

  5. 在本教程中,输入您的电子邮件和您希望能够预览人工任务 UI 的任何其他电子邮件。您可以将最多包含 50 个电子邮件的列表(以逗号分隔)粘贴到电子邮件地址框中。

  6. 输入组织名称和联系人电子邮件。

  7. (可选)选择团队订阅到的 Amazon SNS 主题,这样在有新的 Ground Truth 标记作业可用时,其工作人员将收到通知。Amazon SNS 通知受 Ground Truth 支持,而不受 Augmented AI 支持。如果您将工作人员订阅到 Amazon SNS 通知,他们将仅接收有关标记作业的通 Ground Truth。而不会收到有关 Augmented AI 任务的通知。

  8. 选择 Create private team (创建私有团队)

如果您将自己添加到私人工作团队,您会收到no-reply@verificationemail.com,并提供登录信息。使用此电子邮件中的链接重置密码并登录工作人员门户。这是当您创建人工循环时,人工审阅任务会出现的位置。

第 2 步:创建人工审核工作流程

在此步骤中,可以创建人工审核工作流程。每个人工审阅工作流都是针对特定任务类型. 本教程允许您在内置任务类型之间进行选择:Amazon Rekognition 和 Amazon Textract。

要创建人工审核工作流:

  1. 打开增强的 AI 控制台,网址为https://console.aws.amazon.com/a2i访问人工审查工作流页.

  2. Select创建人工审阅工作流.

  3. In工作流程设置中,输入工作流名称S3 bucket,以及IAM 角色,其中包含Amazon管理的策略AmazonAugmentedAIIntegratedAPIAccess已附加。

  4. 适用于任务类型中,选择Textract — 键值对提取或者Rekognition — 图像调节.

  5. 选择您从下表中选择的任务类型,以获取该任务类型的说明。

    Amazon Textract – Key-value pair extraction

    1. Select根据表单键置信度分数或缺少特定表单键时触发针对特定表单键的人工审查.

    2. 适用于键名称输入,输入Mail Address.

    3. 将标识置信阈值设置为099.

    4. 将资格置信度阈值设置为099.

    5. Select触发器针对 Amazon Textract 标识的所有表单键的人工审查,并在特定范围内获得置信度分数。.

    6. 将标识置信阈值设置为090.

    7. 将资格置信度阈值设置为090.

    如果 Amazon Textract 返回的置信度评分小于99对于 来说为Mail Address及其键,或者如果返回的置信度分数小于90对于文档中检测到的任何密钥值对。

    下图显示了 Amazon Textract 表单提取-调用亚马逊 A2I 控制台人工评论部分的条件。在图像中,选中后续段落中解释的两种触发器类型的复选框,Mail Address被用作键名称作为第一个触发器。识别置信阈值是使用表单中键值对检测的置信分数定义的,并设置在 0 到 99 之间。资格置信阈值是使用表单中键和值中包含的文本的置信度分数定义的,并且设置在 0 到 99 之间。

    Amazon Rekognition – Image moderation

    1. Select触发器根据标签置信度分数,对由 Amazon Rekognition 标识的标签进行人工审查.

    2. 设置Threshold介于098.

    如果亚马逊重申返回的置信度评分小于98以获取图像审核作业。

    下图显示如何选择根据标签置信度分数触发针对由 Amazon Rekognition 标识的标签的人工审查选项,然后输入Threshold介于亚马逊 A2I 控制台中的 0 到 98 之间。

  6. INTO工作人员任务模板创建中,选择从默认模板创建.

  7. 输入一个模板名称.

  8. In任务描述字段中,输入以下文本:

    Read the instructions carefully and complete the task.

  9. INTO工作线程中,选择私密.

  10. 选择您创建的专用团队。

  11. 选择创建

创建人工审阅工作流后,该工作流将显示在人工审查工作流页. 当状态Active中,复制并保存工作流 ARN。您在下一个步骤中需要用到它。

第 3 步:启动人工循环

您必须使用 API 操作来启动人工循环。您可以使用各种特定于语言的 SDK 与这些 API 操作进行交互。要查看每个 SDK 的文档,请参阅另请参阅部分,如下图所示。

在本教程中,您将使用以下 API 之一:

您可以使用 SageMaker 笔记本实例(建议新用户使用)或Amazon Command Line Interface(Amazon CLI)。请选择以下任一选项,以了解有关这些选项的更多信息:

在下表中选择您的任务类型,以查看 Amazon Textract 和亚马 Amazon Rekognition 申请的示例请求,使用Amazon SDK for Python (Boto3).

Amazon Textract – Key-value pair extraction

以下示例使用Amazon SDK for Python (Boto3)调用analyze_document(在 us-west-2 中)。将斜体红色文本替换为您的资源。加入DataAttributes参数,如果您使用的是亚 Amazon Mechanical Turk 工作人员。有关更多信息,请参阅 。analyze_document文档中的Amazon SDK for Python (Boto)API 参考.

response = client.analyze_document( Document={ "S3Object": { "Bucket": "AWSDOC-EXAMPLE-BUCKET", "Name": "document-name.pdf" } }, HumanLoopConfig={ "FlowDefinitionArn":"arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name", "HumanLoopName":"human-loop-name", "DataAttributes" : { "ContentClassifiers":["FreeOfPersonallyIdentifiableInformation","FreeOfAdultContent"] } }, FeatureTypes=["TABLES", "FORMS"])
Amazon Rekognition – Image moderation

以下示例使用Amazon SDK for Python (Boto3)调用detect_moderation_labels(在 us-west-2 中)。将斜体红色文本替换为您的资源。加入DataAttributes参数,如果您使用的是亚 Amazon Mechanical Turk 工作人员。有关更多信息,请参阅 。detect_moderation_labels文档中)Amazon SDK for Python (Boto)API 参考.

response = client.detect_moderation_labels( Image={ "S3Object":{ "Bucket": "AWSDOC-EXAMPLE-BUCKET", "Name": "image-name.png" } }, HumanLoopConfig={ "FlowDefinitionArn":"arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name", "HumanLoopName":"human-loop-name", "DataAttributes":{ ContentClassifiers:["FreeOfPersonallyIdentifiableInformation"|"FreeOfAdultContent"] } })

第 4 步:在控制台中查看人工循环状态

当您启动人工循环时,您可以在 Amazon A2I 控制台中查看其状态。

查看人体循环状态

  1. 打开增强的 AI 控制台,网址为https://console.aws.amazon.com/a2i访问人工审查工作流页.

  2. 选择您用于启动人工循环的人工审核工作流。

  3. 人類循環部分,你可以看到你的人类循环。查看其状态状态column.

第 5 步:下载输出数据

您的输出数据存储在您创建人工审核工作流时指定的 Amazon S3 存储桶中。

查看您的 Amazon A2I 输出数据

  1. 打开 Amazon S3 控制台

  2. 在本示例的步骤 2 中,选择您在创建人工审核工作流时指定的 Amazon S3 存储桶。

  3. 从以人工审阅工作流命名的文件夹开始,通过选择具有以下命名约定的文件夹导航到输出数据:

    s3://output-bucket-specified-in-human-review-workflow/human-review-workflow-name/YYYY/MM/DD/hh/mm/ss/human-loop-name/output.json
  4. Selectoutput.json,然后选择下载.