使用 Amazon Glue Studio 检测 PII - Amazon Glue Studio
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

使用 Amazon Glue Studio 检测 PII

检测 PII 转换目前为 Amazon Glue Studio 的预览版,可能会发生变化。
注意

在 Amazon Glue Studio 任务中使用检测 PII 转换需要 Amazon Glue 2.0。

检测 PII 转换可识别数据源中的个人身份信息(PII)。选择要识别的 PII 实体、希望如何扫描数据以及如何处理检测 PII 转换识别的 PII 实体。

选择希望如何扫描数据

您可以选择检测整个数据源中的 PII,也可以检测包含 PII 的字段列。


                 屏幕截图显示了检测 PII 转换中有关如何扫描数据源的选项。您可以选择扫描所有行和列来检测整个数据源中的 PII,也可以抽样行来检测包含 PII 的列中的 PII。

当您选择 Detect PII in each cell(在每个单元格中检测 PII)时,您就是选择扫描数据源中的所有行。这是一次全面扫描,以确保识别 PII 实体。

当您选择 Detect fields containing PII(检测包含 PII 的字段)时,您就是选择扫描行样本以查找 PII 实体。这种方法可以将成本和资源保持在较低水平,同时还可以识别发现 PII 实体的字段。

当您选择检测包含 PII 的字段时,可以对部分行进行抽样来降低成本并提高性能。选择此选项将允许您指定其他选项:

  • Sample portion(抽样比例):此选项允许您指定要抽样的行的百分比。例如,如果输入“50”,即表示您指定希望 PII 实体扫描 50% 的行。

  • Detection threshold(检测阈值):此选项允许您指定将整个列标识为具有 PII 实体时,包含 PII 实体的行的百分比。例如,如果输入“10”,即表示指定扫描到行中 PII 实体“美国电话号码”的数量必须达到 10% 或以上,才能将该字段标识为具有 PII 实体“美国电话号码”。如果包含 PII 实体的行百分比小于 10%,则该字段将不会标注为包含 PII 实体“美国电话号码”。


                 屏幕截图显示了选择检测数据源中包含 PII 的字段时,检测 PII 转换中的选项。

选择要对其执行操作的 PII 实体

您可以指定一个或多个要检测并对其执行操作的 PII 实体。


                     屏幕截图显示的下拉菜单可选择一个或多个 PII 实体。选择多个实体时允许检测数据源中多种类型的 PII 数据。
  • ITIN(美国)

  • 电子邮件

  • 护照编号(美国)

  • 美国电话号码

  • 信用卡

  • 银行账户(美国、加拿大)

  • 美国驾驶许可证

  • IP 地址

  • MAC 地址

  • DEA 号码(美国)

  • HCPCS 编码(美国)

  • 国家提供商识别码(美国)

  • 国家药品编码(美国)

  • 健康保险索赔编号(美国)

  • 医疗保险受益人识别码(美国)

  • CPT 编码(美国)

选择如何处理已识别的 PII 数据

如果选择在整个数据源中检测 PII,则可以选择:

  • Enrich data with detection results(使用检测结果丰富数据):如果选择在每个单元格中检测 PII,则可以将检测到的实体存储到新列中。

  • Redact detected text(编校检测到的文本):可以使用在可选的替换文本输入字段中指定的字符串替换检测到的 PII 值。如果未指定字符串,则检测到的 PII 实体将替换为“*******”。


                 屏幕截图显示了选择数据源中的所有行以检测 PII 时,检测 PII 转换中的选项。

如果选择检测包含 PII 的字段,则可以选择执行以下操作:

  • Output Detection Results(输出检测结果):将创建新的数据帧,其中包含每列检测到的 PII 信息。

  • Redact detected text(编校检测到的文本):可以使用指定的字符串替换检测到的 PII 值。如果未指定字符串,则检测到的 PII 实体将替换为“*******”。