教程:从 Amazon A2I 控制台开始使用 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

教程:从 Amazon A2I 控制台开始使用

以下教程向您展示了如何在亚马逊 A2I 控制台中开始使用 Amazon A2I。

本教程让您可以选择将 Augmented AI 与 Amazon Textract 结合使用进行文档审阅,或者使用 Amazon Rekognition 进行图片内容审核。

先决条件

要开始使用 Amazon A2I,请满足以下先决条件。

  • 在同一个存储桶中创建 Amazon S3 存储桶Amazon区域作为输入和输出数据的工作流。例如,如果您在 us-east-1 中将 Amazon A2I 与 Amazon Textract 结合使用,请在 us-east-1 中创建存储桶。要创建存储桶,请按照中的说明操作创建存储桶中的Amazon Simple Storage Storage Service 控制台.

  • 请执行下列操作之一:

    • 如果您想使用 Amazon Textract 完成教程,请下载此示例文档将其放在 Amazon S3 存储桶中。

    • 如果您想使用 Amazon Rekognition 完成教程,请下载映像将其放在 Amazon S3 存储桶中。

注意

Amazon A2I 控制台嵌入在 SageMaker 控制台中。

第 1 步:创建工作团队

首先,在 Amazon A2I 控制台中创建一个工作组,然后将自己添加为工作人员,以便您可以预览工作人员审核任务。

重要

本教程使用私人工作团队。Amazon A2I 私有劳动力在 SageMaker 控制台的 Ground Truth 区域中配置,并在 Amazon A2I 和 Ground Truth 之间共享。

使用工作人员电子邮件创建私有人力

  1. 从打开 SageMaker 控制台https://console.aws.amazon.com/sagemaker/.

  2. 在导航窗格中,选择为人力添加标签Ground Truth.

  3. 选择 Private (私有),然后选择 Create private team (创建私有团队)

  4. 选择 Invite new workers by email (通过电子邮件邀请新工作人员)

  5. 对于本教程,请输入您的电子邮件和任何其他您希望能够预览人工任务 UI 的其他电子邮件。在电子邮件地址框中粘贴或键入包含最多 50 个电子邮件的列表,以逗号分隔。

  6. 输入组织名称和联系人电子邮件。

  7. (可选)选择团队订阅到的 Amazon SNS 主题,这样在有新的 Ground Truth 标记作业可用时,其工作人员将收到通知。Amazon SNS 受 Ground Truth 支持,但不受支持,但不 Augmented AI 支持。如果您为工作人员订阅 Amazon SNS 通知,则他们仅收到有关 Ground Truth 标记作业的通知。而不会收到有关 Augmented AI 任务的通知。

  8. 选择 Create private team (创建私有团队)

如果您将自己添加到私人工作团队,则会收到来自的电子邮件no-reply@verificationemail.com带登录信息。使用此电子邮件中的链接重置密码并登录工作人员门户。当你创建人工循环时,你的人工审查任务就会出现在这里。

第 2 步:创建人工审核工作流程

在此步骤中,您将创建人工审核工作流程。每个人工审核工作流程都是针对特定的任务类型. 在本教程中,您可以选择内置任务类型:Amazon Rekognition 和 Amazon Textract。

要创建人工审核工作流程:

  1. 在以下位置打开 Augmented AI 控制台https://console.aws.amazon.com/a2i访问人工审核工作流页.

  2. Select创建人工审核工作流.

  3. In工作流设置中,输入工作流程名称S3 bucket,以及IAM 角色您为本教程创建的,使用Amazon管理的策略AmazonAugmentedAIIntegratedAPIAccess已附加。

  4. 适用于任务类型,请选择Textract — 键值对提取要么Rekognition — 图像审核.

  5. 选择从下表中选择的任务类型,以获取该任务类型的说明。

    Amazon Textract – Key-value pair extraction

    1. Select根据表单键置信度分数或特定表单键缺失时触发针对特定表单键的人工审查。.

    2. 适用于键名称,输入Mail Address.

    3. 在之间设置识别置信度阈值099.

    4. 设置资格置信度阈值099.

    5. Select触发器针对由 Amazon Textract 标识的所有表单键的人工审查,并在特定范围内的置信度分数。.

    6. 在之间设置识别置信度阈值090.

    7. 设置资格置信度阈值090.

    如果 Amazon Textract 返回的信心分数低于99为了Mail Address和它的关键,或者如果它返回的信心分数低于90用于文档中检测到的任何密钥值对。

    下图显示了 Amazon Textract 表单提取-亚马逊 A2I 控制台中调用人工评论的条件部分。在图片中,选中了上一段中解释的两种触发器类型的复选框,并且Mail Address被用作键名称对于第一个触发器。标识置信度阈值是使用表单中检测到的键值对的置信度分数来定义的,并设置在 0 到 99 之间。资格置信度阈值是使用键中包含的文本的置信度分数和表单中的值来定义的,并设置在 0 到 99 之间。

    Amazon Rekognition – Image moderation

    1. Select触发器根据标签置信度分数,针对由 Amazon Rekognition 标识的标签的人工审查.

    2. 设置Threshold之间098.

    如果 Amazon Rekognition 返回的信心分数低于98用于图像审核工作。

    下图说明了如何选择根据标签置信度分数触发针对由 Amazon Rekognition 标识的标签的人工审查。选项然后输入Threshold在亚马逊 A2I 控制台中的 0 到 98 之间。

  6. UDER创建员工任务模板,请选择从默认模板创建.

  7. 输入模板名称.

  8. In任务描述字段中,输入以下文本:

    Read the instructions carefully and complete the task.

  9. UDER员工,请选择私密.

  10. 选择您创建的私人团队。

  11. 选择创建

创建人工审核工作流程后,它将显示在人工审核工作流页. 当状态Active中,复制并保存工作流 ARN。下一个步骤中,您需要用到它。

第 3 步:启动人工循环

您必须使用 API 操作启动人工循环。您可以使用各种特定于语言的 SDK 与这些 API 操作进行交互。要查看每个 SDK 的文档,请参阅另请参阅部分,如下图所示。

在本教程中,您将使用以下 API 之一:

您可以使用 SageMaker 笔记本实例(建议新用户使用)或Amazon Command Line Interface(Amazon CLI)。选择下列选项之一,以了解有关这些选项的更多信息:

在下表中选择您的任务类型,以查看 Amazon Textract 和 Amazon Rekognition 的示例请求Amazon SDK for Python (Boto3).

Amazon Textract – Key-value pair extraction

以下示例使用Amazon SDK for Python (Boto3)调用analyze_document(在 us-west-2 中)。将斜体红色文本替换为斜体的红色文本。加入DataAttributes参数如果您使用的是 Amazon Mechanical Turk 员队伍。有关更多信息,请参阅 。analyze_document(在文档中)Amazon SDK for Python (Boto)API 参考.

response = client.analyze_document( Document={ "S3Object": { "Bucket": "AWSDOC-EXAMPLE-BUCKET", "Name": "document-name.pdf" } }, HumanLoopConfig={ "FlowDefinitionArn":"arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name", "HumanLoopName":"human-loop-name", "DataAttributes" : { "ContentClassifiers":["FreeOfPersonallyIdentifiableInformation","FreeOfAdultContent"] } }, FeatureTypes=["TABLES", "FORMS"])
Amazon Rekognition – Image moderation

以下示例使用Amazon SDK for Python (Boto3)调用detect_moderation_labels(在 us-west-2 中)。将斜体红色文本替换为斜体的红色文本。加入DataAttributes参数如果您使用的是 Amazon Mechanical Turk 员队伍。有关更多信息,请参阅 。detect_moderation_labels(在) 中的文档Amazon SDK for Python (Boto)API 参考.

response = client.detect_moderation_labels( Image={ "S3Object":{ "Bucket": "AWSDOC-EXAMPLE-BUCKET", "Name": "image-name.png" } }, HumanLoopConfig={ "FlowDefinitionArn":"arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name", "HumanLoopName":"human-loop-name", "DataAttributes":{ ContentClassifiers:["FreeOfPersonallyIdentifiableInformation"|"FreeOfAdultContent"] } })

第 4 步:在控制台中查看人类循环状态

当您启动人类循环时,您可以在 Amazon A2I 控制台中查看其状态。

查看你的人类循环状态

  1. 在以下位置打开 Augmented AI 控制台https://console.aws.amazon.com/a2i访问人工审核工作流页.

  2. 选择用于启动人工循环的人工审查工作流程。

  3. 人类循环部分,你可以看到你的人类循环。在状态column.

第 5 步:下载输出数据

输出数据存储在您创建人工审核工作流程时指定的 Amazon S3 存储桶中。

要查看您的 Amazon A2I 输出数据

  1. 打开 Amazon S3 控制台

  2. 在本示例的步骤 2 中,选择您在创建人工审核工作流程时指定的 Amazon S3 存储桶。

  3. 从以人工审核工作流程命名的文件夹开始,通过选择具有以下命名约定的文件夹来导航到输出数据:

    s3://output-bucket-specified-in-human-review-workflow/human-review-workflow-name/YYYY/MM/DD/hh/mm/ss/human-loop-name/output.json
  4. Selectoutput.json然后选择下载.