创建包含数据质量规则的规则集 - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建包含数据质量规则的规则集

在以下过程中,您可以找到创建规则集并将其应用于数据集的示例。规则集是一组规则,用于将不同的数据指标与预期值进行比较。然后,您可以在配置文件作业中使用此规则集来验证其中包含的数据质量规则。

创建包含数据质量规则的示例规则集
  1. 登录 Amazon Web Services Management Console 并打开 DataBrew 控制台,网址为 https://console.aws.amazon.com/databrew/

  2. 从导航窗格中选择 DQ 规则,然后选择创建数据质量规则集

  3. 输入规则集的名称。(可选)输入规则集的描述。

  4. 在 “关联的数据集” 下,选择要与规则集关联的数据集。

    选择数据集后,可以在右侧查看数据集预览窗格。

  5. 在确定要创建的数据质量规则时,使用数据集预览窗格中的预览来浏览数据集的值和架构。预览可以让你深入了解数据可能存在的潜在问题。

    某些数据源(例如数据库)不支持数据预览。在这种情况下,您无需先验证数据质量规则即可运行分析作业。然后,您可以使用数据配置文件获取有关数据架构和值分布的信息。

  6. 查看 “建议” 选项卡,其中列出了一些可以在创建规则集时使用的规则建议。您可以选择全部、部分或不选择任何推荐。

    选择相关建议后,选择 “添加到规则集”。

    这会将规则添加到您的规则集中。如有必要,请检查和修改参数。请注意,数据质量规则中只能使用简单类型的列,例如字符串数字布尔值

  7. 选择 “添加其他规则” 以添加建议未涵盖的规则。您可以更改规则名称,以便日后更容易解释验证结果。

  8. 使用数据质量检查范围来选择是在此规则中每次检查时选择单个列,还是将其应用于您选择的一组列。例如,如果您的数据集有多个数值列,其值应介于 0 和 100 之间,则可以定义一次规则,然后选择所有要按此规则检查的列。

  9. 如果您的规则将有多项检查,则在规则成功标准下拉列表中,选择是否应满足所有检查或哪些检查符合标准。

  10. 数据质量检查下拉列表中选择要执行的检查以验证此规则。有关可用支票的更多信息,请参阅可用的支票

  11. 如果您为数据质量检查范围中的每列选择了单独检查,请选择一列。选择或键入此支票的列名。

  12. 根据检查选择参数。有些条件仅接受提供的自定义值,有些条件还支持引用另一列。

  13. 如果您选择检查列值,例如字符串值的包含条件,则可以指定 “通过” 阈值。例如,如果您希望至少 95% 的值满足该条件,则需要选择大于等于作为阈值的条件,输入 95 作为阈值,然后在 阈值” 部分的下一个下拉列表中保留 “%(百分比)行”或者,如果您希望不超过 10 行,其中缺少值的条件为真,则可以选择 “小于等于” 作为条件,在 “阈值” 中输入 10,然后在下一个下拉列表中选择。请注意,如果您在验证期间使用不同大小的样本,可能会得到不同的结果。

  14. 如果需要,可以添加更多规则。

  15. 选择 “创建规则集”。