识别和处理个人身份信息 (PII) - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

识别和处理个人身份信息 (PII)

在构建分析函数或机器学习模型时,需要采取保护措施来防止个人身份信息 (PII) 数据泄露。PII 是可用于识别个人身份的个人数据,例如地址、银行账号或电话号码。例如,当数据分析师和数据科学家使用数据集来发现一般的人口统计信息时,他们不应有权访问特定个人的 PII。

DataBrew 提供数据屏蔽机制,用于在数据准备过程中模糊处理 PII 数据。根据贵组织的需求,有不同的 PII 数据编辑机制可供选择。您可以对 PII 数据进行模糊处理,这样用户就无法将其还原,也可以使混淆变得可逆的。

识别和屏蔽中的 PII 数据 DataBrew 涉及构建一组转换,客户可以使用这些转换来编辑 PII 数据。此过程的一部分是在 DataBrew 控制台上的数据配置文件概述仪表板中提供 PII 数据检测和统计信息。

您可以使用以下数据屏蔽技术:

  • 替换-将 PII 数据替换为其他外观真实的值。

  • 牌 — 将同一列的值洗到不同的行中。

  • 确定性加密-对列值应用确定性加密算法。确定性加密总是为值生成相同的密文。

  • 概率加密-对列值应用概率加密算法。概率加密每次应用时都会生成不同的密文。

  • 解密-根据加密密钥解密列。

  • 清空或删除-将特定字段替换为空值或删除该列。

  • 屏蔽-使用字符乱写或屏蔽列中的某些部分。

  • 哈希-对列值应用哈希函数。

有关使用转换的更多信息,请参阅个人身份信息 (PII) 配方步骤。有关使用配置文件作业检测 PII 的更多信息,包括可以检测到的实体类型列表,请参阅以编程方式构建配置文件作业配置中有关配置 PII 的EntityDetectorConfiguration 部分