检测和处理敏感数据 - Amazon Glue Studio
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

检测和处理敏感数据

检测 PII 转换可识别数据源中的个人身份信息(PII)。选择要识别的 PII 实体、希望如何扫描数据以及如何处理检测 PII 转换识别的 PII 实体。

检测 PII 转换提供检测、掩盖或删除您定义的或由 Amazon 预定义的实体的功能。这赋能您提高合规性并减少责任。例如,您可能想要确保数据中不存在可以读取的个人身份信息,并想要掩盖具有固定字符串(例如 xxx-xx-xxxx)的社保号码、电话号码或地址。

选择希望如何扫描数据

您可以选择检测整个数据源中的 PII,也可以检测包含 PII 的字段列。


                 屏幕截图显示了检测 PII 转换中有关如何扫描数据源的选项。您可以选择扫描所有行和列来检测整个数据源中的 PII,也可以抽样行来检测包含 PII 的列中的 PII。

当您选择 Detect PII in each cell(在每个单元格中检测 PII)时,您就是选择扫描数据源中的所有行。这是一次全面扫描,以确保识别 PII 实体。

当您选择 Detect fields containing PII(检测包含 PII 的字段)时,您就是选择扫描行样本以查找 PII 实体。这种方法可以将成本和资源保持在较低水平,同时还可以识别发现 PII 实体的字段。

当您选择检测包含 PII 的字段时,可以对部分行进行抽样来降低成本并提高性能。选择此选项将允许您指定其他选项:

  • Sample portion(抽样比例):此选项允许您指定要抽样的行的百分比。例如,如果输入“50”,即表示您指定希望 PII 实体扫描 50% 的行。

  • Detection threshold(检测阈值):此选项允许您指定将整个列标识为具有 PII 实体时,包含 PII 实体的行的百分比。例如,如果输入“10”,即表示指定扫描到行中 PII 实体“美国电话号码”的数量必须达到 10% 或以上,才能将该字段标识为具有 PII 实体“美国电话号码”。如果包含 PII 实体的行百分比小于 10%,则该字段将不会标注为包含 PII 实体“美国电话号码”。


                 屏幕截图显示了选择检测数据源中包含 PII 的字段时,检测 PII 转换中的选项。

选择要检测的 PII 实体

如果选择 Detect PII in each cell(在每个单元格中检测 PII),您可以选择以下三个选项之一:

  • 所有可用的 PII 模式 - 这包括 Amazon 实体。

  • 选择类别 - 当您选择类别时,PII 模式将自动在您选择的类别中包括模式。

  • 选择特定模式 - 仅能检测到您选择的模式。

选择所有可用的 PII 模式

如果选择 All available PII patterns(所有可用的 PII 模式),请选择由 Amazon 预定义的实体。您可以选择一个、多个或所有实体。


                 屏幕截图显示了预定义 Amazon 实体列表中的选项。

选择类别

如果您选择了 Select categories(选择类别)作为要检测的 PII 模式,则您可以选择下拉菜单中的选项。注意,某些实体可能属于多个类别。例如,人员姓名是属于通用HIPAA 类别的实体。

  • 通用(例如:电子邮件、信用卡)

  • HIPAA [例如:美国驾照、医疗保健通用程序编码系统 (HCPCS) 代码]

  • 联网(例如:IP 地址、MAC 地址)

  • 美国(例如:美国电话、美国护照)

  • 英国(例如:英国银行账户、英国增值税)

  • 日本(例如:日本 My Number、日本护照)

选择特定模式

如果选择 Select specific patterns(选择特定模式)作为要检测的 PII 模式,您可以搜索或浏览已创建的模式列表,或者创建新的检测实体模式。

以下步骤介绍了如何新建用于检测敏感数据的自定义模式。您将通过输入自定义模式的名称、添加正则表达式以及定义上下文字词来创建自定义模式。

  1. 若要创建新模式,请单击 Create new(新建)按钮。

    
                             屏幕截图显示了选择模式部分。
  2. 在创建检测实体页面中,输入实体名称和正则表达式。Amazon Glue 将使用正则表达式 (Regex) 来匹配实体。

  3. 单击 Validate(验证)。如果验证成功,您将看到一条确认消息,指出字符串是有效的正则表达式。如果验证不成功,您将看到一条消息,指出字符串不符合正确的格式和可接受的字符文本、运算符或结构。

  4. 除了正则表达式之外,您还可以选择添加上下文字词。上下文字词可以提高匹配的概率。在字段名称没有描述实体的情况下,这些功能非常有用。例如,社会安全号码可以被命名为“SSN”或“SS”。添加这些上下文字词有助于匹配实体。

  5. 单击 Create(创建)以创建检测实体。任何创建的实体在 Amazon Glue Studio 控制台中可见。单击左侧导航菜单中的 Detection entities(检测实体)。

    您可以从 Detection entities(检测实体)页面编辑、删除或创建检测实体。您还可以使用搜索字段搜索模式。

选择如何处理已识别的 PII 数据

如果选择在整个数据源中检测 PII,则可以选择:

  • Enrich data with detection results(使用检测结果丰富数据):如果选择在每个单元格中检测 PII,则可以将检测到的实体存储到新列中。

  • Redact detected text(编校检测到的文本):可以使用在可选的替换文本输入字段中指定的字符串替换检测到的 PII 值。如果未指定字符串,则检测到的 PII 实体将替换为“*******”。

  • Apply cryptographic hash(应用加密哈希):您可以将检测到的 PII 值传递给 SHA-256 加密哈希函数,并将该值替换为该函数的输出。


                 屏幕截图显示了选择数据源中的所有行以检测 PII 时,检测 PII 转换中的选项。

如果选择检测包含 PII 的字段,则可以选择执行以下操作:

  • DataFrame Output Detection Results(输出检测结果):将创建新的输出检测结果。

  • Redact detected text(编校检测到的文本):可以使用指定的字符串替换检测到的 PII 值。如果未指定字符串,则检测到的 PII 实体将替换为“*******”。

  • Apply cryptographic hash(应用加密哈希):您可以将检测到的 PII 值传递给 SHA-256 加密哈希函数,并将该值替换为该函数的输出。