本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
识别和处理个人身份信息 (PII)
在构建分析函数或机器学习模型时,需要采取保护措施来防止个人身份信息 (PII) 数据泄露。PII 是可用于识别个人的个人数据,例如地址、银行账号或电话号码。例如,当数据分析师和数据科学家使用数据集发现一般人口统计信息时,他们不应访问特定个人的个人身份信息。
DataBrew提供数据屏蔽机制,用于在数据准备过程中混淆 PII 数据。根据贵组织的需求,有不同的 PII 数据编辑机制可用。您可以对 PII 数据进行模糊处理,这样用户就无法将其还原,也可以使混淆可逆处理。
识别和屏蔽 PII 数据DataBrew涉及构建一组转换,客户可以使用这些转换来编辑 PII 数据。此过程的一部分是在DataBrew控制台的数据配置文件概述仪表板中提供 PII 数据检测和统计信息。
您可以使用以下数据掩盖技术:
替@@ 换-用其他看似真实的值替换 PII 数据。
洗牌 — 在不同行中随机排列同一列的值。
确定性加密-对列值应用确定性加密算法。确定性加密总是为值生成相同的密文。
概率加密-将概率加密算法应用于列值。概率加密每次应用时都会产生不同的密文。
解密-根据加密密钥解密列。
清空或删除-将特定字段替换为空值或删除该列。
屏蔽-使用字符扰动或屏蔽列中的某些部分。
哈希-对列值应用哈希函数。
有关使用转换的更多信息,请参阅个人身份信息 (PII) 配方步骤。有关使用配置文件作业检测 PII 的更多信息,包括可以检测到的实体类型列表,请参阅以编程方式构建配置文件作业配置中的配置 PII EntityDetectorConfiguration 部分。