使用数据质量规则创建规则集 - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用数据质量规则创建规则集

在以下过程中,您可以找到创建规则集并将其应用到数据集的示例。一个规则集是一组规则,用于将不同的数据指标与预期值进行比较。然后,您可以在配置文件作业中使用此规则集来验证其中包含的数据质量规则。

使用数据质量规则创建示例规则集
  1. 登录到Amazon Web Services Management Console然后打开 DataBrew 控制台在https://console.aws.amazon.com/databrew/.

  2. 选择DQ 规则在导航窗格中,然后选择创建数据质量规则集.

  3. 输入规则集的名称。或者,输入规则集的描述。

  4. UNDER关联数据集中,选择要与规则集关联的数据集。

    选择数据集之后,您可以查看数据集预览窗格在右边。

  5. 使用中的预览数据集预览窗格以在确定要创建的数据质量规则时探索数据集的值和方案。该预览版可以让您深入了解数据可能存在的潜在问题。

    某些数据源(例如数据库)不支持数据预览。在这种情况下,您可以在不首先验证数据质量规则的情况下运行配置文件作业。然后,您可以使用数据配置文件获取有关数据架构和值分布的信息。

  6. 查看建议选项卡,其中列出了创建规则集时可以使用的一些规则建议。您可以选择全部、部分或全部推荐。

    选择相关推荐后,选择添加到规则集.

    这将为规则集添加规则。如果需要,请检查和修改参数。请注意,只有简单类型的列,例如数字布尔值可以在数据质量规则中使用。

  7. 选择添加其他规则添加一条建议未涵盖的规则。您可以更改规则名称,以便以后更容易解释验证结果。

  8. 使用数据质量检查范围以选择是否将在此规则中的每个检查中选择单个列,还是应将其应用于您选择的一组列。例如,如果数据集有多个数字列,其值应在 0 到 100 之间,则可以定义一次规则,然后选择要由此规则检查的所有这些列。

  9. 如果你的规则将有多个支票,那么在规则成功标准下拉菜单中,选择是否应满足所有支票还是哪些支票符合标准。

  10. 选择将执行的检查以验证此规则的数据质量检查下拉菜单。有关可用支票的详细信息,请参阅。可用的支票.

  11. 如果你选择了对每列进行单独检查中的数据质量检查范围中,选择一列。选择或键入此检查的列名称。

  12. 根据支票选择参数。有些条件仅接受提供的自定义值,有些条件还支持引用另一列。

  13. 如果你选择支票列值例如包含字符串值的条件,然后你可以指定 “通过” 阈值。例如,如果您希望至少 95% 的值满足条件,则需要选择大于等于作为门槛Condition,输入 95 作为Threshold离开“%(百分比)行”在下一个下拉菜单中Threshold部分。或者如果你想要不超过 10 行值缺少条件是真的,那么你可以选择小于等于作为Condition,输入 10Threshold然后选择在下一个下拉菜单中。请注意,如果在验证期间使用不同大小的样本,可能会得到不同的结果。

  14. 如果需要,请添加更多规则。

  15. 选择创建规则集.