创建包含数据质量规则的规则集
在以下过程中,您可以找到创建规则集并将其应用于数据集的示例。规则集是一组规则,可将不同的数据指标与预期值进行比较。然后,您可以在剖析作业中使用此规则集验证其中包含的数据质量规则。
创建包含数据质量规则的示例规则集
登录到 Amazon Web Services 管理控制台并打开 DataBrew 控制台,网址:https://console.aws.amazon.com/databrew/
。 -
从导航窗格中选择 DQ 规则,然后选择创建数据质量规则集。
-
输入规则集的名称。或者,输入规则集的描述。
在关联的数据集下,选择要与规则集关联的数据集。
选择数据集后,可以在右侧查看数据集预览窗格。
-
在确定要创建的数据质量规则时,使用数据集预览窗格中的预览来浏览数据集的值和架构。预览可以让您深入了解数据可能存在的问题。
某些数据源(例如数据库)不支持数据预览。在这种情况下,您无需先验证数据质量规则即可运行剖析作业。然后,您可以使用数据配置文件获取有关数据架构和值分布的信息。
-
查看建议选项卡,其中列出了一些可以在创建规则集时使用的规则建议。您可以选择全部、部分建议或不选择任何建议。
选择相关建议后,选择添加到规则集。
此时会将规则添加到您的规则集中。如有必要,请检查和修改参数。请注意,在数据质量规则中只能使用简单类型的列,例如字符串、数字和布尔值。
选择添加其他规则以添加建议未涵盖的规则。您可以更改规则名称,以方便日后解释验证结果。
使用数据质量检查范围来选择在此规则中是每次检查时选择单个列,还是将其应用于您选择的一组列。例如,如果您的数据集有多个其值介于 0 和 100 之间的数值列,则可以定义一次规则,然后选择所有要由此规则检查的列。
如果您的规则有多项检查,则在规则成功标准下拉列表中,选择是应满足所有检查还是哪些检查满足标准。
在数据质量检查下拉列表中选择要执行的检查以验证此规则。有关可用检查的更多信息,请参阅可用检查。
如果您选择数据质量检查范围中的单独检查每列,请选择一列。为此检查选择或键入列名称。
根据检查选择参数。有些条件仅接受提供的自定义值,有些条件还支持对其他列的引用。
如果您选择检查列值,例如针对字符串值的包含条件,则可以指定“通过”阈值。例如,如果您希望至少 95% 的值满足该条件,则需要选择大于等于作为阈值的条件,输入 95 作为阈值,然后在阈值部分的下一个下拉列表中保留%(百分比)行。或者,如果您想要的行数不超过 10 行,其中缺少值条件为真,则可以选择小于等于作为条件,输入 10 作为阈值,然后在下一个下拉列表中选择行。请注意,如果您在验证期间使用不同大小的样本,可能会获得不同的结果。
如果需要,请添加更多规则。
选择创建规则集。