使用 Amazon Glue Studio 检测 PII
检测 PII 转换目前为 Amazon Glue Studio 的预览版,可能会发生变化。 |
在 Amazon Glue Studio 任务中使用检测 PII 转换需要 Amazon Glue 2.0。
检测 PII 转换可识别数据源中的个人身份信息(PII)。选择要识别的 PII 实体、希望如何扫描数据以及如何处理检测 PII 转换识别的 PII 实体。
选择希望如何扫描数据
您可以选择检测整个数据源中的 PII,也可以检测包含 PII 的字段列。

当您选择 Detect PII in each cell(在每个单元格中检测 PII)时,您就是选择扫描数据源中的所有行。这是一次全面扫描,以确保识别 PII 实体。
当您选择 Detect fields containing PII(检测包含 PII 的字段)时,您就是选择扫描行样本以查找 PII 实体。这种方法可以将成本和资源保持在较低水平,同时还可以识别发现 PII 实体的字段。
当您选择检测包含 PII 的字段时,可以对部分行进行抽样来降低成本并提高性能。选择此选项将允许您指定其他选项:
-
Sample portion(抽样比例):此选项允许您指定要抽样的行的百分比。例如,如果输入“50”,即表示您指定希望 PII 实体扫描 50% 的行。
-
Detection threshold(检测阈值):此选项允许您指定将整个列标识为具有 PII 实体时,包含 PII 实体的行的百分比。例如,如果输入“10”,即表示指定扫描到行中 PII 实体“美国电话号码”的数量必须达到 10% 或以上,才能将该字段标识为具有 PII 实体“美国电话号码”。如果包含 PII 实体的行百分比小于 10%,则该字段将不会标注为包含 PII 实体“美国电话号码”。

选择要对其执行操作的 PII 实体
您可以指定一个或多个要检测并对其执行操作的 PII 实体。

ITIN(美国)
电子邮件
护照编号(美国)
美国电话号码
信用卡
银行账户(美国、加拿大)
美国驾驶许可证
IP 地址
MAC 地址
DEA 号码(美国)
HCPCS 编码(美国)
国家提供商识别码(美国)
国家药品编码(美国)
健康保险索赔编号(美国)
医疗保险受益人识别码(美国)
CPT 编码(美国)
选择如何处理已识别的 PII 数据
如果选择在整个数据源中检测 PII,则可以选择:
-
Enrich data with detection results(使用检测结果丰富数据):如果选择在每个单元格中检测 PII,则可以将检测到的实体存储到新列中。
-
Redact detected text(编校检测到的文本):可以使用在可选的替换文本输入字段中指定的字符串替换检测到的 PII 值。如果未指定字符串,则检测到的 PII 实体将替换为“*******”。

如果选择检测包含 PII 的字段,则可以选择执行以下操作:
-
Output Detection Results(输出检测结果):将创建新的数据帧,其中包含每列检测到的 PII 信息。
-
Redact detected text(编校检测到的文本):可以使用指定的字符串替换检测到的 PII 值。如果未指定字符串,则检测到的 PII 实体将替换为“*******”。