本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
检测和处理敏感数据
检测 PII 转换可识别数据源中的个人身份信息(PII)。选择要识别的 PII 实体、希望如何扫描数据以及如何处理检测 PII 转换识别的 PII 实体。
检测 PII 转换提供检测、掩盖或删除您定义的或由 Amazon 预定义的实体的功能。这赋能您提高合规性并减少责任。例如,您可能想要确保数据中不存在可以读取的个人身份信息,并想要掩盖具有固定字符串(例如 xxx-xx-xxxx)的社保号码、电话号码或地址。
选择希望如何扫描数据
您可以选择检测整个数据源中的 PII,也可以检测包含 PII 的字段列。

当您选择 Detect PII in each cell(在每个单元格中检测 PII)时,您就是选择扫描数据源中的所有行。这是一次全面扫描,以确保识别 PII 实体。
当您选择 Detect fields containing PII(检测包含 PII 的字段)时,您就是选择扫描行样本以查找 PII 实体。这种方法可以将成本和资源保持在较低水平,同时还可以识别发现 PII 实体的字段。
当您选择检测包含 PII 的字段时,可以对部分行进行抽样来降低成本并提高性能。选择此选项将允许您指定其他选项:
-
Sample portion(抽样比例):此选项允许您指定要抽样的行的百分比。例如,如果输入“50”,即表示您指定希望 PII 实体扫描 50% 的行。
-
Detection threshold(检测阈值):此选项允许您指定将整个列标识为具有 PII 实体时,包含 PII 实体的行的百分比。例如,如果输入“10”,即表示指定扫描到行中 PII 实体“美国电话号码”的数量必须达到 10% 或以上,才能将该字段标识为具有 PII 实体“美国电话号码”。如果包含 PII 实体的行百分比小于 10%,则该字段将不会标注为包含 PII 实体“美国电话号码”。

选择要检测的 PII 实体
如果选择 Detect PII in each cell(在每个单元格中检测 PII),您可以选择以下三个选项之一:
-
所有可用的 PII 模式 - 这包括 Amazon 实体。
-
选择类别 - 当您选择类别时,PII 模式将自动在您选择的类别中包括模式。
-
选择特定模式 - 仅能检测到您选择的模式。
选择所有可用的 PII 模式
如果选择 All available PII patterns(所有可用的 PII 模式),请选择由 Amazon 预定义的实体。您可以选择一个、多个或所有实体。

选择类别
如果您选择了 Select categories(选择类别)作为要检测的 PII 模式,则您可以选择下拉菜单中的选项。注意,某些实体可能属于多个类别。例如,人员姓名是属于通用和 HIPAA 类别的实体。
-
通用(例如:电子邮件、信用卡)
-
HIPAA [例如:美国驾照、医疗保健通用程序编码系统 (HCPCS) 代码]
-
联网(例如:IP 地址、MAC 地址)
-
美国(例如:美国电话、美国护照)
-
英国(例如:英国银行账户、英国增值税)
-
日本(例如:日本 My Number、日本护照)
选择特定模式
如果选择 Select specific patterns(选择特定模式)作为要检测的 PII 模式,您可以搜索或浏览已创建的模式列表,或者创建新的检测实体模式。
以下步骤介绍了如何新建用于检测敏感数据的自定义模式。您将通过输入自定义模式的名称、添加正则表达式以及定义上下文字词来创建自定义模式。
-
若要创建新模式,请单击 Create new(新建)按钮。
-
在创建检测实体页面中,输入实体名称和正则表达式。Amazon Glue 将使用正则表达式 (Regex) 来匹配实体。
-
单击 Validate(验证)。如果验证成功,您将看到一条确认消息,指出字符串是有效的正则表达式。如果验证不成功,您将看到一条消息,指出字符串不符合正确的格式和可接受的字符文本、运算符或结构。
-
除了正则表达式之外,您还可以选择添加上下文字词。上下文字词可以提高匹配的概率。在字段名称没有描述实体的情况下,这些功能非常有用。例如,社会安全号码可以被命名为“SSN”或“SS”。添加这些上下文字词有助于匹配实体。
-
单击 Create(创建)以创建检测实体。任何创建的实体在 Amazon Glue Studio 控制台中可见。单击左侧导航菜单中的 Detection entities(检测实体)。
您可以从 Detection entities(检测实体)页面编辑、删除或创建检测实体。您还可以使用搜索字段搜索模式。
选择如何处理已识别的 PII 数据
如果选择在整个数据源中检测 PII,则可以选择:
-
Enrich data with detection results(使用检测结果丰富数据):如果选择在每个单元格中检测 PII,则可以将检测到的实体存储到新列中。
-
Redact detected text(编校检测到的文本):可以使用在可选的替换文本输入字段中指定的字符串替换检测到的 PII 值。如果未指定字符串,则检测到的 PII 实体将替换为“*******”。
-
Apply cryptographic hash(应用加密哈希):您可以将检测到的 PII 值传递给 SHA-256 加密哈希函数,并将该值替换为该函数的输出。

如果选择检测包含 PII 的字段,则可以选择执行以下操作:
-
DataFrame Output Detection Results(输出检测结果):将创建新的输出检测结果。
-
Redact detected text(编校检测到的文本):可以使用指定的字符串替换检测到的 PII 值。如果未指定字符串,则检测到的 PII 实体将替换为“*******”。
-
Apply cryptographic hash(应用加密哈希):您可以将检测到的 PII 值传递给 SHA-256 加密哈希函数,并将该值替换为该函数的输出。