

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 可用检查
<a name="profile.data-quality-available-checks"></a>

下表列出了对可在规则中使用的所有可用条件的引用。请注意，聚合条件不能与同一规则中的非聚合条件结合使用。

**注意**  
对于 SDK 用户，要将相同的规则应用于多列，请使用[规则](https://docs.amazonaws.cn/databrew/latest/dg/API_Rule.html)的[ColumnSelectors](https://docs.amazonaws.cn/databrew/latest/dg/API_ColumnSelector.html)属性，并使用名称或正则表达式指定经过验证的列。在这种情况下，你应该使用隐式*CheckExpression*。例如，`“> :val”`将每个选定列中的值与提供的值进行比较。 DataBrew 使用隐式语法[FilterExpression](https://docs.amazonaws.cn/databrew/latest/dg/API_FilterExpression.html)在动态数据集中进行定义。如果要为每项检查单独指定列，请不要设置该*ColumnSelectors*属性。相反，请提供一个显式表达式。例如，`“:col > :val”`如*规则*CheckExpression**中的 a。


****  


- **聚合数据集条件**
  - **数据质量检查:** 行数 / **额外参数:**  / **比较类型:** 与自定义值的数值比较 / **SDK 语法示例:** `"CheckExpression": "AGG(ROWS_COUNT) > :val", "SubstitutionMap": {":val", "10000"}`
  - **数据质量检查:** 列数 / **额外参数:**  / **比较类型:** 与自定义值的数值比较 / **SDK 语法示例:** `"CheckExpression": "AGG(COLUMNS_COUNT) == :val", "SubstitutionMap": {":val", "20"}`
  - **数据质量检查:** 重复行 / **额外参数:**  / **比较类型:** 与自定义值的数值比较 / **SDK 语法示例:** `"CheckExpression": "AGG(DUPLICATE_ROWS_COUNT) < :val", "SubstitutionMap": {":val", "100"}`<br />或者<br />`"CheckExpression": "AGG(DUPLICATE_ROWS_PERCENTAGE) < :val", "SubstitutionMap": {":val", "5"} `

- **聚合列统计信息条件**
  - **数据质量检查:** 缺失值 / **额外参数:**  / **比较类型:** 与自定义值的数值比较 / **SDK 语法示例:** `"CheckExpression": "AGG(MISSING_VALUES_COUNT) < :val", "SubstitutionMap": {":val", "100"}`<br />或者<br />`"CheckExpression": "AGG(MISSING_VALUES_PERCENTAGE) < :val", "SubstitutionMap": {":val", "5"} `
  - **数据质量检查:** 重复值 / **额外参数:**  / **比较类型:** 与自定义值的数值比较 / **SDK 语法示例:** `"CheckExpression": "AGG(DUPLICATE_VALUES_COUNT) < :val", "SubstitutionMap": {":val", "100"}`<br />或者<br />`"CheckExpression": "AGG(DUPLICATE_VALUES_PERCENTAGE) < :val", "SubstitutionMap": {":val", "5"} `
  - **数据质量检查:** 有效值 / **额外参数:**  / **比较类型:** 与自定义值的数值比较 / **SDK 语法示例:** `"CheckExpression": "AGG(VALID_VALUES_COUNT) > :val", "SubstitutionMap": {":val", "10000"}`<br />或者<br />`"CheckExpression": "AGG(VALID_VALUES_PERCENTAGE) > :val", "SubstitutionMap": {":val", "95"} `
  - **数据质量检查:** 相异值 / **额外参数:**  / **比较类型:** 与自定义值的数值比较 / **SDK 语法示例:** `"CheckExpression": "AGG(DISTINCT_VALUES_COUNT) > :val", "SubstitutionMap": {":val", "1000"}`<br /> 或者 <br />`"CheckExpression": "AGG(DISTINCT_VALUES_PERCENTAGE) >= :val", "SubstitutionMap": {":val", "50"} `
  - **数据质量检查:** 唯一值 / **额外参数:**  / **比较类型:** 与自定义值的数值比较 / **SDK 语法示例:** `"CheckExpression": "AGG(UNIQUE_VALUES_COUNT) > :val", "SubstitutionMap": {":val", "100"}`<br />或者<br />`"CheckExpression": "AGG(UNIQUE_VALUES_PERCENTAGE) > :val", "SubstitutionMap": {":val", "20"} `
  - **数据质量检查:** 异常值 / **额外参数:** Z-score 阈值 / **比较类型:** 与自定义值的数值比较 / **SDK 语法示例:** `"CheckExpression": "AGG(Z_SCORE_OUTLIERS_COUNT, :zscore_dev) < :val", "SubstitutionMap": {":zscore_dev": "4", ":val", "100"}`<br /> 或者 <br />` "CheckExpression": "AGG(Z_SCORE_OUTLIERS_PERCENTAGE) < :val", "SubstitutionMap": {":val", "5"} `
  - **数据质量检查:** 值分布统计数据 / **额外参数:** 统计数据名称（参见下表） / **比较类型:** 与自定义值的数值比较 / **SDK 语法示例:** `"CheckExpression": "AGG(<STAT_NAME>) < :val", "SubstitutionMap": {":val", "100"}`<br /> 或者 <br />`"CheckExpression": "AGG(<STAT_NAME>, :param) < :val", "SubstitutionMap": {":param": "0.25", :val", "5"}` 有关可能的 `STAT_NAME` 值，请参见下表
  - **数据质量检查:** 数值统计数据 / **额外参数:** 统计数据名称（参见下表） / **比较类型:** 与自定义值的数值比较 / **SDK 语法示例:** `"CheckExpression": "AGG(<STAT_NAME>) < :val", "SubstitutionMap": {":val", "100"}`<br /> 或者 <br />`"CheckExpression": "AGG(<STAT_NAME>, :param) < :val", "SubstitutionMap": {":param": "0.25", :val", "5"}` 有关可能的 `STAT_NAME` 值，请参见下表

- **非聚合（接受阈值）**
  - **数据质量检查:** 值正好是 / **额外参数:**  / **比较类型:** 与值列表进行精确比较 / **SDK 语法示例:** `"CheckExpression": ":col IN :list", "SubstitutionMap": {":col": "`size`", ":list": "[\"S\",\"M\",\"L\",\"XL\"]"}`
  - **数据质量检查:** 值不完全是 / **额外参数:**  / **比较类型:** 值不应与列表中的任何值完全匹配 / **SDK 语法示例:** `"CheckExpression": ":col NOT IN :list", "SubstitutionMap": {":col": "`domain`", ":list": "[\"GOV\",\"ORG\"]"}`
  - **数据质量检查:** 字符串值 / **额外参数:**  / **比较类型:** 与自定义值或其他字符串列进行字符串比较 / **SDK 语法示例:** `"CheckExpression": ":col STARTS_WITH :val", "SubstitutionMap": {":col": "`url`", ":val": "http"}`<br /> 或者 <br />`"CheckExpression": ":col1 contains :col2", "SubstitutionMap": {":col1": "`url`", ":col2": "`company_name`"} `
  - **数据质量检查:** 数字值 / **额外参数:**  / **比较类型:** 与自定义值或其他数值列进行数值比较  / **SDK 语法示例:** `"CheckExpression": ":col IS_BETWEEN :val1 and :val2", "SubstitutionMap": {":col": "`APY`", ":val1": "0", ":val2": "10"}`<br /> 或者 <br />`"CheckExpression": ":col1 <= :col2", "SubstitutionMap": {":col1": "`bank_rate`", ":col2": "`fed_rate`"} `
  - **数据质量检查:** 值字符串长度 / **额外参数:**  / **比较类型:** 与自定义值或其他数值列进行数值比较  / **SDK 语法示例:** `"CheckExpression": "length(:col) IS_BETWEEN :val1 and :val2", "SubstitutionMap": {":col": "`identifier`", ":val1": "8", ":val2": "12"}`<br /> 或者<br />` "CheckExpression": "length(:col1) <= :col2", "SubstitutionMap": {":col1": "`name`", ":col2": "`max_name_len`"} `



**数值比较**

DataBrew 支持以下数值比较运算：*等于 (= =)*、*不等于 (\! =)*、*小于 (<)、小于等于 (< =)* *、大于 (>)、大于等于 (> =)* *和介于 (**is\_between: val1 和:val2)* *之间*。

**字符串比较**

支持以下字符串比较：*开头为*、*开头不是*、*结尾为*、*不以以下值结尾*、*包含*、*不包含*、*等于*、*不等于*、*匹配*、*不匹配*。

下表显示了可用于值分布统计数据和数值统计数据的可用统计数据：


****  


- **值分布统计数据**
  - **统计数据名称:** 最小值 / **额外参数:**  / **SDK 语法:** "CheckExpression": "AGG(MAX) < :val", "SubstitutionMap": {":val", "100"}  
  - **统计数据名称:** 最大值 / **额外参数:**  / **SDK 语法:** "CheckExpression": "AGG(MIN) > :val", "SubstitutionMap": {":val", "0"} 
  - **统计数据名称:** 中间值 / **额外参数:**  / **SDK 语法:** "CheckExpression": "AGG(MEDIAN) >= :val", "SubstitutionMap": {":val", "50"} 
  - **统计数据名称:** 平均值 / **额外参数:**  / **SDK 语法:** "CheckExpression": "AGG(MEAN) <= :val", "SubstitutionMap": {":val", "10"} 
  - **统计数据名称:** Mode / **额外参数:**  / **SDK 语法:** "CheckExpression": "AGG(MODE) > :val", "SubstitutionMap": {":val", "0"}  
  - **统计数据名称:** 标准差 / **额外参数:**  / **SDK 语法:** "CheckExpression": "AGG(STANDARD\_DEVIATION) > :val", "SubstitutionMap": {":val", "0"} 
  - **统计数据名称:** 熵 / **额外参数:**  / **SDK 语法:** "CheckExpression": "AGG(ENTROPY) > :val", "SubstitutionMap": {":val", "0"}  

- **数值统计数据**
  - **统计数据名称:** 总和 / **额外参数:**  / **SDK 语法:** "CheckExpression": "AGG(SUM) > :val", "SubstitutionMap": {":val", "0"} 
  - **统计数据名称:** 峰度 / **额外参数:**  / **SDK 语法:** "CheckExpression": "AGG(KURTOSIS) > :val", "SubstitutionMap": {":val", "0"}  
  - **统计数据名称:** 偏度 / **额外参数:**  / **SDK 语法:** "CheckExpression": "AGG(SKEWNESS) > :val", "SubstitutionMap": {":val", "0"}  
  - **统计数据名称:** 方差 / **额外参数:**  / **SDK 语法:** "CheckExpression": "AGG(VARIANCE) > :val", "SubstitutionMap": {":val", "0"}  
  - **统计数据名称:** 绝对偏差 / **额外参数:**  / **SDK 语法:** "CheckExpression": "AGG(MEDIAN\_ABSOLUTE\_DEVIATION) > :val", "SubstitutionMap": {":val", "0"}  
  - **统计数据名称:** 分位数 / **额外参数:** 分位数：“0.25”、“0.5”和“0.75”之一 / **SDK 语法:** "CheckExpression": "AGG(QUANTILE, :pct) > :val", "SubstitutionMap": {":pct": "0.25", ":val", "0"}  

