将人工循环激活条件 JSON 架构与 Amazon Textract 结合使用 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将人工循环激活条件 JSON 架构与 Amazon Textract 结合使用

与 Amazon A2I 一起使用时,AnalyzeDocument操作支持以下输入ConditionType参数:

  • ImportantFormKeyConfidenceCheck— 当推理置信度在文档表单键和单词块的指定范围内时,使用此条件创建人工循环。表单键 是文档中与输入关联的任何单词。输入称为。表单键和值一起称为键/值对。A单词块是指 Amazon Textract 在检测到的文本块内识别的单词。要详细了解 Amazon Textract 文档块,请参阅文档和阻止对象中的Amazon Textract 开发人员指南

  • MissingImportantFormKey— 当 Amazon Textract 未在文档中标识键或其关联的别名时,使用此条件可以创建人工循环。

  • Sampling— 使用此条件可以指定发送进行人工审核的表单百分比,而不考虑推理置信度得分。使用此条件来执行以下操作:

    • 通过对模型分析的所有表单随机抽样并发送指定百分比的表单进行人工审核,对 ML 模型进行审计。

    • 使用 ImportantFormKeyConfidenceCheck 条件随机抽样满足 ImportantFormKeyConfidenceCheck 中指定的条件的一定百分比的推理以启动人工循环,并仅发送指定的百分比进行人工审核。

注意

如果您将相同的请求发送到AnalyzeDocument多次,结果Sampling不会因该输入的推断而改变。例如,如果您创建一个AnalyzeDocument请求一次,Sampling不会启动人类循环,后续请求AnalyzeDocument具有相同的配置不会启动人工循环。

ImportantFormKeyConfidenceCheck输入和结果

ImportantFormKeyConfidenceCheck ConditionType 支持以下 ConditionParameters

  • ImportantFormKey— 一个字符串,表示 Amazon Textract 检测到的键值对中的键,需要人工审查。如果此参数的值是包罗万象的特殊值 (*),则所有键都被视为与条件匹配。您可以使用此项,对满足特定置信度阈值的任何键/值对都需要人工审核的情况进行建模。

  • ImportantFormKeyAliases— 表示重要表单键的替代拼写或逻辑等效物的数组。

  • KeyValueBlockConfidenceEquals

  • KeyValueBlockConfidenceLessThan

  • KeyValueBlockConfidenceLessThanEquals

  • KeyValueBlockConfidenceGreaterThan

  • KeyValueBlockConfidenceGreaterThanEquals

  • WordBlockConfidenceEquals

  • WordBlockConfidenceLessThan

  • WordBlockConfidenceLessThanEquals

  • WordBlockConfidenceGreaterThan

  • WordBlockConfidenceGreaterThanEquals

当您使用ImportantFormKeyConfidenceCheck ConditionType中,Amazon A2I 将发送键值块和键块的单词块推理,并在中指定的关联别名ImportantFormKeyImportantFormKeyAliases供人类审查。

在创建流定义时,如果您使用默认工作人员任务模板(在人工审查工作流部分中,通过此激活条件发送供人工审查的键值和块推理都包含在工作人员 UI 中。如果您使用自定义工作人员任务模板,则需要包含{{ task.input.selectedAiServiceResponse.blocks }}元素包含来自 Amazon Textract 的初始值输入数据(推理)。有关使用此输入元素的自定义模板的示例,请参阅Amazon Textract 的自定义模板示例

MissingImportantFormKey输入和结果

MissingImportantFormKey ConditionType 支持以下 ConditionParameters

  • ImportantFormKey— 一个字符串,表示 Amazon Textract 检测到的键值对中的键,需要人工审查。

  • ImportantFormKeyAliases— 表示重要表单键的替代拼写或逻辑等效物的数组。

当您使用MissingImportantFormKey ConditionType,如果ImportantFormKey中的别名或别名ImportantFormKeyAliases未包含在 Amazon Textract 推理中,则将发送表单以供人工审核,并且不包含任何预测的键值对。例如,如果 Amazon Textract 仅标识AddressPhone,但缺少ImportantFormKey Name(在MissingImportantFormKey条件类型),则表单将发送表单以进行人工审查,而不包含任何检测到的表单键(AddressPhone)。

如果您使用 SageMaker 控制台中提供的默认工作人员任务模板,则会创建一个任务,要求工作人员在ImportantFormKey和相关值。如果您使用自定义工作人员任务模板,则需要包含 <task.input.humanLoopContext> 自定义 HTML 元素以配置此任务。

采样输入和结果

Sampling ConditionType 现在支持 RandomSamplingPercentage ConditionParametersRandomSamplingPercentage 的输入必须是 0.01 到 100 之间的实数。此数字表示符合人工审核条件并将发送进行人工审核的数据百分比。如果您使用Sampling条件,则此数字表示所有结果推理中的百分比。AnalyzeDocument操作从发送给工作人员进行审查的单个请求中进行操作。

如果您指定 Sampling 条件而没有任何其他条件类型,则所有键/值和块推理都会发送给工作人员审核。

在创建流定义时,如果您使用默认工作人员任务模板(在人工审查工作流部分中,所有由此激活条件发送供人工审查的键值和块推理都将包含在工作人员 UI 中。如果您使用自定义工作人员任务模板,则需要包含{{ task.input.selectedAiServiceResponse.blocks }}元素包含来自 Amazon Textract 的初始值输入数据(推理)。有关使用此输入元素的自定义模板的示例,请参阅Amazon Textract 的自定义模板示例

Examples

虽然只有一个条件需要评估为true启动人工循环,Amazon A2I 将评估 Amazon Textract 分析的每个对象的所有条件。人工审查者需要审查评估到的所有条件的重要表单键(true

示例 1:检测置信度分数在指定范围内检测重要表单键,从而启动人工循环

以下示例显示了HumanLoopActivationConditionsJSON,如果满足以下三个条件中的任何一个,则启动人工循环:

  • Amazon TextractAnalyzeDocumentAPI 返回键/值对,其键是Employee NameName,或者EmployeeName,键值块的置信度小于 60,组成键和值的每个单词块的置信度小于 85。

  • Amazon TextractAnalyzeDocumentAPI 返回键/值对,其键是Pay DatePayDateDateOfPay,或者pay-date,键值块的置信度小于 65,组成键和值的每个单词块的置信度小于 85。

  • Amazon TextractAnalyzeDocumentAPI 返回键/值对,其键是Gross PayGrossPay,或者GrossAmount,键值块的置信度小于 60,组成键和值的每个单词块的置信度小于 85。

{ "Conditions": [ { "ConditionType": "ImportantFormKeyConfidenceCheck", "ConditionParameters": { "ImportantFormKey": "Employee Name", "ImportantFormKeyAliases": [ "Name", "EmployeeName" ], "KeyValueBlockConfidenceLessThan": 60, "WordBlockConfidenceLessThan": 85 } }, { "ConditionType": "ImportantFormKeyConfidenceCheck", "ConditionParameters": { "ImportantFormKey": "Pay Date", "ImportantFormKeyAliases": [ "PayDate", "DateOfPay", "pay-date" ], "KeyValueBlockConfidenceLessThan": 65, "WordBlockConfidenceLessThan": 85 } }, { "ConditionType": "ImportantFormKeyConfidenceCheck", "ConditionParameters": { "ImportantFormKey": "Gross Pay", "ImportantFormKeyAliases": [ "GrossPay", "GrossAmount" ], "KeyValueBlockConfidenceLessThan": 60, "WordBlockConfidenceLessThan": 85 } } ] }

示例 2:使用 ImportantFormKeyConfidenceCheck

在以下示例中,如果 Amazon Textract 检测到某个键值对,其键值块的置信度小于 60,并且基础单词块的置信度小于 90,则会创建人工循环。人工审查者被要求审查与置信值比较公式匹配的所有表单键值对。

{ "Conditions": [ { "ConditionType": "ImportantFormKeyConfidenceCheck", "ConditionParameters": { "ImportantFormKey": "*" "KeyValueBlockConfidenceLessThan": 60, "WordBlockConfidenceLessThan": 90 } } ] }

示例 3:使用采样

在以下示例中,将来自 Amazon Textract 的 5% 推理AnalyzeDocument请求发送给人类工作人员进行审查。Amazon Textract 返回的所有检测到的键/值对都将发送给工作人员进行审查。

{ "Conditions": [ { "ConditionType": "Sampling", "ConditionParameters": { "RandomSamplingPercentage": 5 } } ] }

示例 4:使用 MissingImportantFormKey

在以下示例中,如果Mailing Address或其别名Mailing Address:,在 Amazon Textract 检测到的键中缺少,则将启动人工审查。在使用默认工作人员任务模板时,工作人员 UI 将要求工作人员标识键 Mailing AddressMailing Address: 及其关联值。

{ "ConditionType": "MissingImportantFormKey", "ConditionParameters": { "ImportantFormKey": "Mailing Address", "ImportantFormKeyAliases": ["Mailing Address:"] } }

示例 5:使用采样和ImportantFormKeyConfidenceCheck使用Andoperator

在此示例中,Amazon Textract 检测到的密钥为Pay DatePayDateDateOfPay,或者pay-date,键值块的置信度小于 65,组成键和值的每个单词块的置信度小于 85,发送给工作人员进行审核。

{ "Conditions": [ { "And": [ { "ConditionType": "Sampling", "ConditionParameters": { "RandomSamplingPercentage": 5 } }, { "ConditionType": "ImportantFormKeyConfidenceCheck", "ConditionParameters": { "ImportantFormKey": "Pay Date", "ImportantFormKeyAliases": [ "PayDate", "DateOfPay", "pay-date" ], "KeyValueBlockConfidenceLessThan": 65, "WordBlockConfidenceLessThan": 85 } } ] } ] }

示例 6:使用采样和ImportantFormKeyConfidenceCheck使用Andoperator

使用此示例可以配置人工审核工作流,始终将指定键/值对的低置信度推理发送进行人工审核,并按指定比率抽样键/值对的高置信度推理。

在以下示例中,通过以下方式之一启动人工审核:

  • 检测到的键值对,其密钥为Pay DatePayDateDateOfPay,或者pay-date键值和单词块置信度小于 60 时,将发送供人工审核。仅将 Pay Date 表单键(及其别名)和关联值发送给工作人员进行审查。

  • 检测到 5% 的键值对,其密钥为Pay DatePayDateDateOfPay,或者pay-date键值和单词块置信度大于 90 时,将发送供人工审核。仅将 Pay Date 表单键(及其别名)和关联值发送给工作人员进行审查。

{ "Conditions": [ { "Or": [ { "ConditionType": "ImportantFormKeyConfidenceCheck", "ConditionParameters": { "ImportantFormKey": "Pay Date", "ImportantFormKeyAliases": [ "PayDate", "DateOfPay", "pay-date" ], "KeyValueBlockConfidenceLessThan": 60, "WordBlockConfidenceLessThan": 60 } }, { "And": [ { "ConditionType": "Sampling", "ConditionParameters": { "RandomSamplingPercentage": 5 } }, { "ConditionType": "ImportantFormKeyConfidenceCheck", "ConditionParameters": { "ImportantFormKey": "Pay Date", "ImportantFormKeyAliases": [ "PayDate", "DateOfPay", "pay-date" ], "KeyValueBlockConfidenceLessThan": 90 "WordBlockConfidenceGreaterThan": 90 } } ] } ] } ] }

示例 7:使用采样和ImportantFormKeyConfidenceCheck使用Oroperator

在以下示例中,亚 Amazon TextractAnalyzeDocument操作返回键/值对,其键是Pay DatePayDateDateOfPay,或者pay-date,键值块的置信度小于 65,组成键和值的每个单词块的置信度小于 85。此外,所有其他表单中有 5% 的表单启动人工循环。对于随机选择的每个表单,为该表单检测到的所有键值对都将发送给工作人员进行审查。

{ "Conditions": [ { "Or": [ { "ConditionType": "Sampling", "ConditionParameters": { "RandomSamplingPercentage": 5 } }, { "ConditionType": "ImportantFormKeyConfidenceCheck", "ConditionParameters": { "ImportantFormKey": "Pay Date", "ImportantFormKeyAliases": [ "PayDate", "DateOfPay", "pay-date" ], "KeyValueBlockConfidenceLessThan": 65, "WordBlockConfidenceLessThan": 85 } } } ] } ] }