选择希望如何扫描数据选择要检测的 PII 实体指定检测灵敏度级别选择如何处理已识别的 PII 数据添加精细操作覆盖

检测和处理敏感数据

检测 PII 转换可识别数据源中的个人身份信息（PII）。选择要识别的 PII 实体、希望如何扫描数据以及如何处理检测 PII 转换识别的 PII 实体。

检测 PII 转换提供检测、掩盖或删除您定义的或由 Amazon 预定义的实体的功能。这赋能您提高合规性并减少责任。例如，您可能想要确保数据中不存在可以读取的个人身份信息，并想要掩盖具有固定字符串（例如 xxx-xx-xxxx）的社保号码、电话号码或地址。

要在 Amazon Glue Studio 之外处理敏感数据，请参阅在 Amazon Glue Studio 外部使用敏感数据检测

选择希望如何扫描数据

当您扫描数据集中的个人身份信息（PII）等敏感数据时，您可以选择检测每行中的 PII，也可以检测包含 PII 数据的列。

屏幕截图显示了选择检测数据源中包含 PII 的字段时，检测 PII 转换中的选项。

当您选择 Detect PII in each cell（在每个单元格中检测 PII）时，您就是选择扫描数据源中的所有行。这是一次全面扫描，以确保识别 PII 实体。

当您选择 Detect fields containing PII（检测包含 PII 的字段）时，您就是选择扫描行样本以查找 PII 实体。这种方法可以将成本和资源保持在较低水平，同时还可以识别发现 PII 实体的字段。

当您选择检测包含 PII 的字段时，可以对部分行进行抽样来降低成本并提高性能。选择此选项将允许您指定其他选项：

Sample portion（抽样比例）：此选项允许您指定要抽样的行的百分比。例如，如果输入“50”，即表示您指定希望 PII 实体扫描 50％的行。
Detection threshold（检测阈值）：此选项允许您指定将整个列标识为具有 PII 实体时，包含 PII 实体的行的百分比。例如，如果输入“10”，即表示指定扫描到行中 PII 实体“美国电话号码”的数量必须达到 10％或以上，才能将该字段标识为具有 PII 实体“美国电话号码”。如果包含 PII 实体的行百分比小于 10％，则该字段将不会标注为包含 PII 实体“美国电话号码”。

选择要检测的 PII 实体

如果选择 Detect PII in each cell（在每个单元格中检测 PII），您可以选择以下三个选项之一：

所有可用的 PII 模式 - 这包括 Amazon 实体。
选择类别 - 当您选择类别时，PII 模式将自动在您选择的类别中包括模式。
选择特定模式 - 仅能检测到您选择的模式。

有关托管的敏感数据类型的完整列表，请参阅 Managed data types。

选择所有可用的 PII 模式

如果选择 All available PII patterns（所有可用的 PII 模式），请选择由 Amazon 预定义的实体。您可以选择一个、多个或所有实体。

选择类别

如果您选择了 Select categories（选择类别）作为要检测的 PII 模式，则您可以选择下拉菜单中的选项。注意，某些实体可能属于多个类别。例如，人员姓名是属于通用和 HIPAA 类别的实体。

通用（例如：电子邮件、信用卡）
HIPAA [例如：美国驾照、医疗保健通用程序编码系统 (HCPCS) 代码]
联网（例如：IP 地址、MAC 地址）
阿根廷
澳大利亚
奥地利
比利时
波斯尼亚
保加利亚
加拿大
智利
哥伦比亚
克罗地亚
塞浦路斯
捷克
丹麦
爱沙尼亚
芬兰
法国
德国
希腊
匈牙利
爱尔兰
韩国
日本
墨西哥
荷兰
新西兰
挪威
葡萄牙
罗马尼亚
新加坡
斯洛伐克
斯洛文尼亚
西班牙
瑞典
瑞士
土耳其
乌克兰
美国
英国
委内瑞拉

选择特定模式

如果选择 Select specific patterns（选择特定模式）作为要检测的 PII 模式，您可以搜索或浏览已创建的模式列表，或者创建新的检测实体模式。

以下步骤介绍了如何新建用于检测敏感数据的自定义模式。您将通过输入自定义模式的名称、添加正则表达式以及定义上下文字词来创建自定义模式。

若要创建新模式，请单击 Create new（新建）按钮。
在创建检测实体页面中，输入实体名称和正则表达式。Amazon Glue 将使用正则表达式 (Regex) 来匹配实体。
单击 Validate（验证）。如果验证成功，您将看到一条确认消息，指出字符串是有效的正则表达式。如果验证不成功，您将看到一条消息，指出字符串不符合正确的格式和可接受的字符文本、运算符或结构。
除了正则表达式之外，您还可以选择添加上下文字词。上下文字词可以提高匹配的概率。在字段名称没有描述实体的情况下，这些功能非常有用。例如，社会安全号码可以被命名为“SSN”或“SS”。添加这些上下文字词有助于匹配实体。
单击 Create（创建）以创建检测实体。任何创建的实体在 Amazon Glue Studio 控制台中可见。单击左侧导航菜单中的 Detection entities（检测实体）。

您可以从 Detection entities（检测实体）页面编辑、删除或创建检测实体。您还可以使用搜索字段搜索模式。

指定检测灵敏度级别

使用检测敏感数据功能时，您可以设置灵敏度级别。

高 –（默认）适用于需要更高灵敏度级别的应用场景，会检测出更多实体。2023 年 11 月之后创建的所有 Amazon Glue 作业都将自动启用此设置。
低 – 会减少检测出的实体数量并减少误报。

此屏幕截图显示了全局检测灵敏度选项。其中一个是低灵敏度选项，可提高精度，但更严格，可能导致总体检出率较低。第二个选项是高灵敏度设置，检测范围更广，非常适合需要更高 PII 检出率的场景。

选择如何处理已识别的 PII 数据

如果选择整个数据来源中的 PII，则可以选择应用某个全局操作：

Enrich data with detection results（使用检测结果丰富数据）：如果选择在每个单元格中检测 PII，则可以将检测到的实体存储到新列中。
Redact detected text（编校检测到的文本）：可以使用在可选的替换文本输入字段中指定的字符串替换检测到的 PII 值。如果未指定字符串，则检测到的 PII 实体将替换为“*******”。
部分编辑检测到的文本：可以使用选定的字符串来部分替换检测到的 PII 值。提供两种选项：只留结尾不掩蔽，或通过显式正则表达式模式来掩蔽。Amazon Glue 2.0 未提供此功能。
Apply cryptographic hash（应用加密哈希）：您可以将检测到的 PII 值传递给 SHA-256 加密哈希函数，并将该值替换为该函数的输出。

屏幕截图显示了选择数据源中的所有行以检测 PII 时，检测 PII 转换中的选项。

Amazon Glue 版本 2.0 与 3.0 及以上版本的区别

Amazon Glue 2.0 作业将返回一个新的 DataFrame，用一个补充列来包含每列检测到的 PII 信息。任何编辑或散列化处理都可通过视觉对象选项卡中的 Amazon Glue 脚本查看。

Amazon Glue 3.0 和 4.0 作业将返回一个具有相同补充列的新 DataFrame。此外还包含一个新键“actionUsed”，值可能为 DETECT、REDACT、PARTIAL_REDACT 或 SHA256_HASH。如果选择了一种掩蔽操作，则 DataFrame 将返回已掩蔽敏感数据的数据。

添加精细操作覆盖

可以将其他检测和操作设置添加到精细操作覆盖表中，从而让您能够实现以下目的：

在检测范围中包含或排除特定的列 – 数据来源上的推断 Schema 将使用可用列来填充表。
指定比使用全局操作时更精细的特定设置 – 例如，您可以为不同的实体类型指定不同的掩蔽文本设置。
指定与全局操作不同的操作 – 如果要对不同的敏感数据类型应用不同的操作，则可以通过此设置来完成。请注意，不能在同一列上使用两种不同的就地编辑操作（编辑和散列化处理），但在任何情况下都可以使用检测操作。

屏幕截图显示了精细操作覆盖。您可以按 JSON 格式添加、编辑、删除或编辑该作业的任何操作覆盖。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

监控作业运行情况

管理任务