在Amazon Textract 中使用人循环激活条件 JSON 架构 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在Amazon Textract 中使用人循环激活条件 JSON 架构

与亚马逊 A2I 一起使用时,AnalyzeDocument操作支持以下输入ConditionType参数:

  • ImportantFormKeyConfidenceCheck— 当文档表单键和单词块的推理置信度在指定范围之内时,使用此条件创建人工循环。表单键 是文档中与输入关联的任何单词。输入称为。表单键和值一起称为键/值对。一个Word Lob指的是 Amazon Textract 在检测到的文本块中识别出的单词。要了解有关 Amazon Textract 文档块的更多信息,请参阅文档和区块对象在里面Amazon Textract.

  • MissingImportantFormKey— 当 Amazon Textract 未在文档中识别密钥或其关联别名时,使用此条件创建人工循环。

  • Sampling— 使用此条件指定要发送给人类审阅的表单的百分比,无论推断置信度分数如何。使用此条件来执行以下操作:

    • 通过对模型分析的所有表单随机抽样并发送指定百分比的表单进行人工审核,对 ML 模型进行审计。

    • 使用 ImportantFormKeyConfidenceCheck 条件随机抽样满足 ImportantFormKeyConfidenceCheck 中指定的条件的一定百分比的推理以启动人工循环,并仅发送指定的百分比进行人工审核。

注意

如果您将相同的请求发送至AnalyzeDocument多次,结果是Sampling不会因该输入的推断而改变。例如,如果你做一个AnalyzeDocument请求一次,然后Sampling不会启动人工循环,后续请求AnalyzeDocument使用相同的配置不要启动人工循环。

ImportantFormKeyConfidenceCheck输入和结果

ImportantFormKeyConfidenceCheck ConditionType 支持以下 ConditionParameters

  • ImportantFormKey— 一个字符串,表示 Amazon Textract 检测到的键值对中的密钥,需要由人工审核。如果此参数的值是包罗万象的特殊值 (*),则所有键都被视为与条件匹配。您可以使用此项,对满足特定置信度阈值的任何键/值对都需要人工审核的情况进行建模。

  • ImportantFormKeyAliases— 代表重要表单键的替代拼写或逻辑等效词的数组。

  • KeyValueBlockConfidenceEquals

  • KeyValueBlockConfidenceLessThan

  • KeyValueBlockConfidenceLessThanEquals

  • KeyValueBlockConfidenceGreaterThan

  • KeyValueBlockConfidenceGreaterThanEquals

  • WordBlockConfidenceEquals

  • WordBlockConfidenceLessThan

  • WordBlockConfidenceLessThanEquals

  • WordBlockConfidenceGreaterThan

  • WordBlockConfidenceGreaterThanEquals

当您使用以下应用程序时:ImportantFormKeyConfidenceCheck ConditionType,Amazon A2I 会发送您在中指定的键值块和关联别名的键值块和字块推理ImportantFormKeyImportantFormKeyAliases供人工审查。

在创建流程定义时,如果您使用默认的工作任务模板,该模板在人工审阅工作流程亚马逊版块 SageMaker通过此激活条件发送给人工查看的控制台、键值和区块推断都包含在工作器用户界面中。如果您使用自定义工作任务模板,则需要包含{{ task.input.selectedAiServiceResponse.blocks }}元素包含来自 Amazon Textract 的初始值输入数据(推论)。有关使用此输入元素的自定义模板的示例,请参阅Amazon Textract 的自定义模板示例

MissingImportantFormKey输入和结果

MissingImportantFormKey ConditionType 支持以下 ConditionParameters

  • ImportantFormKey— 一个字符串,表示 Amazon Textract 检测到的键值对中的密钥,需要由人工审核。

  • ImportantFormKeyAliases— 代表重要表单键的替代拼写或逻辑等效词的数组。

当您使用以下应用程序时:MissingImportantFormKey ConditionType,如果密钥进入ImportantFormKey或者别名ImportantFormKeyAliases未包含在 Amazon Textract 推断中,该表单将发送给人工审核,不包括预测的键值对。例如,如果Amazon Textract 仅识别出来AddressPhone在表格中,但缺少了ImportantFormKey Name(在MissingImportantFormKey条件类型)该表格将在未检测到任何表单密钥的情况下发送给人类进行审查(AddressPhone)。

如果您使用在中提供的默认工作任务模板 SageMaker 控制台,创建了一个任务,要求工作人员识别其中的密钥ImportantFormKey和相关的值。如果您使用自定义工作人员任务模板,则需要包含 <task.input.humanLoopContext> 自定义 HTML 元素以配置此任务。

采样输入和结果

Sampling ConditionType 现在支持 RandomSamplingPercentage ConditionParametersRandomSamplingPercentage 的输入必须是 0.01 到 100 之间的实数。该数字代表符合人工审查条件并发送给人类审查的数据的百分比。如果您将Sampling没有任何其他条件的条件,这个数字代表了由此得出的所有推论的百分比AnalyzeDocument操作来自发送给人类进行审查的单一请求。

如果您指定 Sampling 条件而没有任何其他条件类型,则所有键/值和块推理都会发送给工作人员审核。

在创建流程定义时,如果您使用默认的工作任务模板,该模板在人工审阅工作流程的部分 SageMaker控制台,通过此激活条件发送给人工查看的所有键值和区块推断都包含在工作器用户界面中。如果您使用自定义工作任务模板,则需要包含{{ task.input.selectedAiServiceResponse.blocks }}元素包含来自 Amazon Textract 的初始值输入数据(推论)。有关使用此输入元素的自定义模板的示例,请参阅Amazon Textract 的自定义模板示例

示例

虽然只需要评估一个条件true为了启动人工循环,Amazon A2I 会评估 Amazon Textract 分析的每个对象的所有条件。要求人工审阅者查看评估到的所有条件的重要表单密钥true.

示例 1:检测具有指定范围内的置信度分数的重要表单密钥,从而启动人工循环

以下示例显示了HumanLoopActivationConditions如果满足以下三个条件中的任何一个条件,则会启动人工循环的 JSON:

  • Amazon TextractAnalyzeDocumentAPI 返回一个键/值对Employee Name,Name,或EmployeeName,键值块的置信度小于 60,构成键和值的每个单词块的置信度小于 85。

  • Amazon TextractAnalyzeDocumentAPI 返回一个键/值对Pay Date,PayDate,DateOfPay,或pay-date,键值块的置信度小于 65,构成键和值的每个单词块的置信度小于 85。

  • Amazon TextractAnalyzeDocumentAPI 返回一个键/值对Gross Pay,GrossPay,或GrossAmount,键值块的置信度小于 60,构成键和值的每个单词块的置信度小于 85。

{ "Conditions": [ { "ConditionType": "ImportantFormKeyConfidenceCheck", "ConditionParameters": { "ImportantFormKey": "Employee Name", "ImportantFormKeyAliases": [ "Name", "EmployeeName" ], "KeyValueBlockConfidenceLessThan": 60, "WordBlockConfidenceLessThan": 85 } }, { "ConditionType": "ImportantFormKeyConfidenceCheck", "ConditionParameters": { "ImportantFormKey": "Pay Date", "ImportantFormKeyAliases": [ "PayDate", "DateOfPay", "pay-date" ], "KeyValueBlockConfidenceLessThan": 65, "WordBlockConfidenceLessThan": 85 } }, { "ConditionType": "ImportantFormKeyConfidenceCheck", "ConditionParameters": { "ImportantFormKey": "Gross Pay", "ImportantFormKeyAliases": [ "GrossPay", "GrossAmount" ], "KeyValueBlockConfidenceLessThan": 60, "WordBlockConfidenceLessThan": 85 } } ] }

示例 2:使用 ImportantFormKeyConfidenceCheck

在以下示例中,如果 Amazon Textract 检测到一个键值对,该键值对的键值块的置信度小于 60,对任何底层词块的置信度小于 90,则会创建人工循环。人工审查者被要求审查与置信值比较公式匹配的所有表单键值对。

{ "Conditions": [ { "ConditionType": "ImportantFormKeyConfidenceCheck", "ConditionParameters": { "ImportantFormKey": "*", "KeyValueBlockConfidenceLessThan": 60, "WordBlockConfidenceLessThan": 90 } } ] }

示例 3:使用采样

在以下示例中,有 5% 的推论来自Amazon TextractAnalyzeDocument请求将发送给人类工作者进行审查。Amazon Textract 返回的所有检测到的键值对都将发送给工作人员进行审查。

{ "Conditions": [ { "ConditionType": "Sampling", "ConditionParameters": { "RandomSamplingPercentage": 5 } } ] }

示例 4:使用 MissingImportantFormKey

在以下示例中,如果Mailing Address或者它的别名,Mailing Address:,Amazon Textract 检测到的密钥中缺失,已启动人工审查。在使用默认工作人员任务模板时,工作人员 UI 将要求工作人员标识键 Mailing AddressMailing Address: 及其关联值。

{ "ConditionType": "MissingImportantFormKey", "ConditionParameters": { "ImportantFormKey": "Mailing Address", "ImportantFormKeyAliases": ["Mailing Address:"] } }

示例 5:使用采样和ImportantFormKeyConfidenceCheckAnd操作者

在此示例中,有 5% 的键值对由 Amazon Textract 检测到,其密钥是其中之一Pay Date,PayDate,DateOfPay,或pay-date,如果键值块的置信度小于 65,并且构成密钥和值的每个单词块的置信度小于 85,则发送给工作人员进行审查。

{ "Conditions": [ { "And": [ { "ConditionType": "Sampling", "ConditionParameters": { "RandomSamplingPercentage": 5 } }, { "ConditionType": "ImportantFormKeyConfidenceCheck", "ConditionParameters": { "ImportantFormKey": "Pay Date", "ImportantFormKeyAliases": [ "PayDate", "DateOfPay", "pay-date" ], "KeyValueBlockConfidenceLessThan": 65, "WordBlockConfidenceLessThan": 85 } } ] } ] }

示例 6:使用采样和ImportantFormKeyConfidenceCheckAnd操作者

使用此示例可以配置人工审核工作流,始终将指定键/值对的低置信度推理发送进行人工审核,并按指定比率抽样键/值对的高置信度推理。

在以下示例中,人工审查:

  • 检测到的键值对的密钥是其中之一Pay Date,PayDate,DateOfPay,或pay-date,如果键值和字块置信度小于 60,则发送给人工审查。仅将 Pay Date 表单键(及其别名)和关联值发送给工作人员进行审查。

  • 5% 的键值对检测到其键/值对的键/值对Pay Date,PayDate,DateOfPay,或pay-date,如果键值和字块置信度大于 90,则发送给人工审查。仅将 Pay Date 表单键(及其别名)和关联值发送给工作人员进行审查。

{ "Conditions": [ { "Or": [ { "ConditionType": "ImportantFormKeyConfidenceCheck", "ConditionParameters": { "ImportantFormKey": "Pay Date", "ImportantFormKeyAliases": [ "PayDate", "DateOfPay", "pay-date" ], "KeyValueBlockConfidenceLessThan": 60, "WordBlockConfidenceLessThan": 60 } }, { "And": [ { "ConditionType": "Sampling", "ConditionParameters": { "RandomSamplingPercentage": 5 } }, { "ConditionType": "ImportantFormKeyConfidenceCheck", "ConditionParameters": { "ImportantFormKey": "Pay Date", "ImportantFormKeyAliases": [ "PayDate", "DateOfPay", "pay-date" ], "KeyValueBlockConfidenceLessThan": 90 "WordBlockConfidenceGreaterThan": 90 } } ] } ] } ] }

示例 7:使用采样和ImportantFormKeyConfidenceCheckOr操作者

在以下示例中,Amazon TextractAnalyzeDocument操作返回键值对,其键为以下键/值对Pay Date,PayDate,DateOfPay,或pay-date,键值块的置信度小于 65,构成密钥和值的每个单词块的置信度小于 85。此外,所有其他形式中有5%会引发人为循环。对于随机选择的每个表单,为该表单检测到的所有键值对都将发送给人类进行审查。

{ "Conditions": [ { "Or": [ { "ConditionType": "Sampling", "ConditionParameters": { "RandomSamplingPercentage": 5 } }, { "ConditionType": "ImportantFormKeyConfidenceCheck", "ConditionParameters": { "ImportantFormKey": "Pay Date", "ImportantFormKeyAliases": [ "PayDate", "DateOfPay", "pay-date" ], "KeyValueBlockConfidenceLessThan": 65, "WordBlockConfidenceLessThan": 85 } } } ] } ] }