可用的支票 - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

可用的支票

下表列出了可在规则中使用的所有可用条件的参考资料。请注意,聚合条件不能与同一规则中的非聚合条件结合使用。

注意

对于 SDK 用户,要将相同的规则应用于多个列,请使用列选择器一个属性Rule然后使用名称或正则表达式来指定已验证的列。在这种情况下,您应使用隐式的检查表达式. 例如,“> :val”将每个选定列中的值与提供的值进行比较。 DataBrew 使用隐式语法来定义FilterExpression在动态数据集中。如果要单独为每个检查指定列,请不要设置列选择器属性。相反,请提供明确的表达式。例如,“:col > :val”作为检查表达式Rule.

条件类型 数据质量检查 其他参数 比较类型 SDK 语法示例
聚合数据集条件 行数 数字与自定义值的比较

"CheckExpression": "AGG(ROWS_COUNT) > :val", "SubstitutionMap": {":val", "10000"}

列数 数字与自定义值的比较

"CheckExpression": "AGG(COLUMNS_COUNT) == :val", "SubstitutionMap": {":val", "20"}

重复行重复

数字与自定义值的比较

"CheckExpression": "AGG(DUPLICATE_ROWS_COUNT) < :val", "SubstitutionMap": {":val", "100"}

"CheckExpression": "AGG(DUPLICATE_ROWS_PERCENTAGE) < :val", "SubstitutionMap": {":val", "5"}

聚合列统计信息条件 缺失值 数字与自定义值的比较

"CheckExpression": "AGG(MISSING_VALUES_COUNT) < :val", "SubstitutionMap": {":val", "100"}

"CheckExpression": "AGG(MISSING_VALUES_PERCENTAGE) < :val", "SubstitutionMap": {":val", "5"}

重复值 数字与自定义值的比较

"CheckExpression": "AGG(DUPLICATE_VALUES_COUNT) < :val", "SubstitutionMap": {":val", "100"}

"CheckExpression": "AGG(DUPLICATE_VALUES_PERCENTAGE) < :val", "SubstitutionMap": {":val", "5"}

有效值

数字与自定义值的比较

"CheckExpression": "AGG(VALID_VALUES_COUNT) > :val", "SubstitutionMap": {":val", "10000"}

"CheckExpression": "AGG(VALID_VALUES_PERCENTAGE) > :val", "SubstitutionMap": {":val", "95"}

独特值 数字与自定义值的比较

"CheckExpression": "AGG(DISTINCT_VALUES_COUNT) > :val", "SubstitutionMap": {":val", "1000"}

"CheckExpression": "AGG(DISTINCT_VALUES_PERCENTAGE) >= :val", "SubstitutionMap": {":val", "50"}

唯一值

数字与自定义值的比较

"CheckExpression": "AGG(UNIQUE_VALUES_COUNT) > :val", "SubstitutionMap": {":val", "100"}

"CheckExpression": "AGG(UNIQUE_VALUES_PERCENTAGE) > :val", "SubstitutionMap": {":val", "20"}

异常值

Z 分数阈值 数字与自定义值的比较

"CheckExpression": "AGG(Z_SCORE_OUTLIERS_COUNT, :zscore_dev) < :val", "SubstitutionMap": {":zscore_dev": "4", ":val", "100"}

"CheckExpression": "AGG(Z_SCORE_OUTLIERS_PERCENTAGE) < :val", "SubstitutionMap": {":val", "5"}

值分布统计数据

统计名称(请参阅下表) 数字与自定义值的比较

"CheckExpression": "AGG(<STAT_NAME>) < :val", "SubstitutionMap": {":val", "100"}

"CheckExpression": "AGG(<STAT_NAME>, :param) < :val", "SubstitutionMap": {":param": "0.25", :val", "5"}

注意

请参阅下表以了解可能STAT_NAME价值

数值统计

统计名称(请参阅下表) 数字与自定义值的比较

"CheckExpression": "AGG(<STAT_NAME>) < :val", "SubstitutionMap": {":val", "100"}

"CheckExpression": "AGG(<STAT_NAME>, :param) < :val", "SubstitutionMap": {":param": "0.25", :val", "5"}

注意

请参阅下表以了解可能STAT_NAME价值

非聚合(接受阈值) 恰好值 与值列表进行精确比较

"CheckExpression": ":col IN :list", "SubstitutionMap": {":col": "`size`", ":list": "[\"S\",\"M\",\"L\",\"XL\"]"}

价值不完全 值不应完全匹配列表中的任何值

"CheckExpression": ":col NOT IN :list", "SubstitutionMap": {":col": "`domain`", ":list": "[\"GOV\",\"ORG\"]"}

字符串值 字符串与自定义值或其他字符串列的比较

"CheckExpression": ":col STARTS_WITH :val", "SubstitutionMap": {":col": "`url`", ":val": "http"}

"CheckExpression": ":col1 contains :col2", "SubstitutionMap": {":col1": "`url`", ":col2": "`company_name`"}

数字值 与自定义值或其他数字列进行数字比较

"CheckExpression": ":col IS_BETWEEN :val1 and :val2", "SubstitutionMap": {":col": "`APY`", ":val1": "0", ":val2": "10"}

"CheckExpression": ":col1 <= :col2", "SubstitutionMap": {":col1": "`bank_rate`", ":col2": "`fed_rate`"}

值字符串长度 与自定义值或其他数字列进行数字比较

"CheckExpression": "length(:col) IS_BETWEEN :val1 and :val2", "SubstitutionMap": {":col": "`identifier`", ":val1": "8", ":val2": "12"}

"CheckExpression": "length(:col1) <= :col2", "SubstitutionMap": {":col1": "`name`", ":col2": "`max_name_len`"}

数字比较

DataBreW 支持以下操作以进行数值比较:等于 (==)不等于 (! =)小于 (<)小于等于 (<=)大于 (>)大于等于 (>=)介于之间(is_one: val1 和:val2).

字符串比较

支持以下字符串比较:从 开始不是从开始Ends with不是以结束包含不包含等于不等于匹配项不匹配.

下表显示了可用于值分布统计数据和数值统计数据的可用统计信息:

数据质量检查 统计数据名 其他参数 SDK 语法
值分布统计数据 Min "CheckExpression": "AGG(MAX) < :val", "SubstitutionMap": {":val", "100"}
最大值 "CheckExpression": "AGG(MIN) > :val", "SubstitutionMap": {":val", "0"}
中位数 "CheckExpression": "AGG(MEDIAN) >= :val", "SubstitutionMap": {":val", "50"}
Mean "CheckExpression": "AGG(MEAN) <= :val", "SubstitutionMap": {":val", "10"}
Mode "CheckExpression": "AGG(MODE) > :val", "SubstitutionMap": {":val", "0"}
标准偏差 "CheckExpression": "AGG(STANDARD_DEVIATION) > :val", "SubstitutionMap": {":val", "0"}
"CheckExpression": "AGG(ENTROPY) > :val", "SubstitutionMap": {":val", "0"}
数值统计 总计 "CheckExpression": "AGG(SUM) > :val", "SubstitutionMap": {":val", "0"}
Kurtosis "CheckExpression": "AGG(KURTOSIS) > :val", "SubstitutionMap": {":val", "0"}
偏斜 "CheckExpression": "AGG(SKEWNESS) > :val", "SubstitutionMap": {":val", "0"}
差异 "CheckExpression": "AGG(VARIANCE) > :val", "SubstitutionMap": {":val", "0"}
绝对偏差 "CheckExpression": "AGG(MEDIAN_ABSOLUTE_DEVIATION) > :val", "SubstitutionMap": {":val", "0"}
分位数 分位数:'0.25'、'0.5'、'0.75' 之一 "CheckExpression": "AGG(QUANTILE, :pct) > :val", "SubstitutionMap": {":pct": "0.25", ":val", "0"}