

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 创建包含数据质量规则的规则集
<a name="profile.data-quality-rules-create"></a>

在以下过程中，您可以找到创建规则集并将其应用于数据集的示例。*规则集*是一组规则，可将不同的数据指标与预期值进行比较。然后，您可以在剖析作业中使用此规则集验证其中包含的数据质量规则。

**创建包含数据质量规则的示例规则集**

1. 登录 Amazon Web Services 管理控制台 并打开 DataBrew 控制台，网址为[https://console.aws.amazon.com/databrew/](https://console.amazonaws.cn/glue/)。

1. 从导航窗格中选择 **DQ 规则**，然后选择**创建数据质量规则集**。

1. 输入规则集的名称。或者，输入规则集的描述。

1. 在**关联的数据集**下，选择要与规则集关联的数据集。

   选择数据集后，可以在右侧查看**数据集预览**窗格。

1. 在确定要创建的数据质量规则时，使用**数据集预览**窗格中的预览来浏览数据集的值和架构。预览可以让您深入了解数据可能存在的问题。

   某些数据来源（例如数据库）不支持数据预览。在这种情况下，您无需先验证数据质量规则即可运行剖析作业。然后，您可以使用数据配置文件获取有关数据架构和值分布的信息。

1. 查看**建议**选项卡，其中列出了一些可以在创建规则集时使用的规则建议。您可以选择全部、部分建议或不选择任何建议。

   选择相关建议后，选择**添加到规则集**。

   此时会将规则添加到您的规则集中。如有必要，请检查和修改参数。请注意，在数据质量规则中只能使用简单类型的列，例如*字符串*、*数字*和*布尔值*。

1. 选择**添加其他规则**以添加建议未涵盖的规则。您可以更改规则名称，以方便日后解释验证结果。

1. 使用**数据质量检查范围**来选择在此规则中是每次检查时选择单个列，还是将其应用于您选择的一组列。例如，如果您的数据集有多个其值介于 0 和 100 之间的数值列，则可以定义一次规则，然后选择所有要由此规则检查的列。

1. 如果您的规则有多项检查，则在**规则成功标准**下拉列表中，选择是应满足所有检查还是哪些检查满足标准。

1. 在**数据质量检查**下拉列表中选择要执行的检查以验证此规则。有关可用检查的更多信息，请参阅[可用检查](profile.data-quality-available-checks.md)。

1. 如果您选择**数据质量检查范围**中的**单独检查每列**，请选择一列。为此检查选择或键入列名称。

1. 根据检查选择参数。有些条件仅接受提供的自定义值，有些条件还支持对其他列的引用。

1. 如果您选择检查**列值**，例如针对字符串值的*包含*条件，则可以指定“通过”阈值。例如，如果您希望至少 95% 的值满足该条件，则需要选择*大于等于*作为阈值的**条件**，输入 95 作为**阈值**，然后在**阈值**部分的下一个下拉列表中保留*%（百分比）行*。或者，如果您想要的行数不超过 10 行，其中*缺少值*条件为真，则可以选择*小于等于*作为**条件**，输入 10 作为**阈值**，然后在下一个下拉列表中选择**行**。请注意，如果您在验证期间使用不同大小的样本，可能会获得不同的结果。

1. 如果需要，请添加更多规则。

1. 选择**创建规则集**。