可用检查
下表列出了对可在规则中使用的所有可用条件的引用。请注意,聚合条件不能与同一规则中的非聚合条件结合使用。
注意
对于 SDK 用户,要将相同的规则应用于多列,请使用规则的 ColumnSelectors 属性,使用名称或正则表达式指定经过验证的列。在这种情况下,您应该使用隐式 CheckExpression。例如,“> :val” 可将每个选定列中的值与提供的值进行比较。DataBrew 使用隐式语法在动态数据集中定义 FilterExpression。如果要为每项检查单独指定列,请不要设置 ColumnSelectors 属性。相反,请提供一个显式表达式。例如,“:col > :val” 作为规则中的 CheckExpression。
| 条件类型 | 数据质量检查 | 额外参数 | 比较类型 | SDK 语法示例 |
|---|---|---|---|---|
| 聚合数据集条件 | 行数 | 与自定义值的数值比较 |
|
|
| 列数 | 与自定义值的数值比较 |
| ||
重复行 |
与自定义值的数值比较 |
或
|
||
| 聚合列统计信息条件 | 缺失值 | 与自定义值的数值比较 |
或
|
|
| 重复值 | 与自定义值的数值比较 |
或
| ||
有效值 |
与自定义值的数值比较 |
或
|
||
| 相异值 | 与自定义值的数值比较 |
或
| ||
唯一值 |
与自定义值的数值比较 |
或
|
||
异常值 |
Z-score 阈值 | 与自定义值的数值比较 |
或
|
|
值分布统计数据 |
统计数据名称(参见下表) | 与自定义值的数值比较 |
或
注意 有关可能的 |
|
数值统计数据 |
统计数据名称(参见下表) | 与自定义值的数值比较 |
或
注意 有关可能的 |
|
| 非聚合(接受阈值) | 值正好是 | 与值列表进行精确比较 |
|
|
| 值不完全是 | 值不应与列表中的任何值完全匹配 |
| ||
| 字符串值 | 与自定义值或其他字符串列进行字符串比较 |
或
| ||
| 数字值 | 与自定义值或其他数值列进行数值比较 |
或
| ||
| 值字符串长度 | 与自定义值或其他数值列进行数值比较 |
或
|
数字比较
DataBrew 支持通过以下运算进行数值比较:等于(==)、不等于(!=)、小于(<)、小于等于(<=)、大于(>)、大于等于(>=)和介于(is_between :val1 和 :val2)。
字符串比较
支持以下字符串比较:开头为、开头不是、结尾为、不以以下值结尾、包含、不包含、等于、不等于、匹配、不匹配。
下表显示了可用于值分布统计数据和数值统计数据的可用统计数据:
| 数据质量检查 | 统计数据名称 | 额外参数 | SDK 语法 |
|---|---|---|---|
| 值分布统计数据 | 最小值 | "CheckExpression": "AGG(MAX) < :val",
"SubstitutionMap": {":val", "100"}
|
|
| 最大值 | "CheckExpression": "AGG(MIN) > :val",
"SubstitutionMap": {":val", "0"}
|
||
| 中位数 | "CheckExpression": "AGG(MEDIAN) >= :val",
"SubstitutionMap": {":val", "50"}
|
||
| 平均值 | "CheckExpression": "AGG(MEAN) <= :val",
"SubstitutionMap": {":val", "10"}
|
||
| 模式 | "CheckExpression": "AGG(MODE) > :val",
"SubstitutionMap": {":val", "0"}
|
||
| 标准偏差 | "CheckExpression": "AGG(STANDARD_DEVIATION) > :val",
"SubstitutionMap": {":val", "0"}
|
||
| 熵 | "CheckExpression": "AGG(ENTROPY) > :val",
"SubstitutionMap": {":val", "0"}
|
||
| 数值统计数据 | 总和 | "CheckExpression": "AGG(SUM) > :val",
"SubstitutionMap": {":val", "0"}
|
|
| 峰度 | "CheckExpression": "AGG(KURTOSIS) > :val",
"SubstitutionMap": {":val", "0"}
| ||
| 偏度 | "CheckExpression": "AGG(SKEWNESS) > :val",
"SubstitutionMap": {":val", "0"}
|
||
| 方差 | "CheckExpression": "AGG(VARIANCE) > :val",
"SubstitutionMap": {":val", "0"}
|
||
| 绝对偏差 | "CheckExpression": "AGG(MEDIAN_ABSOLUTE_DEVIATION) > :val",
"SubstitutionMap": {":val", "0"}
|
||
| 分位数 | 分位数:“0.25”、“0.5”和“0.75”之一 | "CheckExpression": "AGG(QUANTILE, :pct) > :val",
"SubstitutionMap": {":pct": "0.25", ":val", "0"}
|