ColumnDataType
检查给定列中的值是否可以在 Apache Spark 中转换为提供的类型。接受 with threshold
表达式以检查列中值的子集。
语法
ColumnDataType
<COL_NAME>
=<EXPECTED_TYPE>
COL_NAME — 要根据其评估数据质量规则的列的名称。
支持的列类型:字符串类型
支持的列类型:字节、十进制、双精度、浮点数、整数、长整数、短整数
EXPECTED_TYPE – 列中值的预期类型。
支持的值:布尔值、日期、时间戳、整数、双精度、浮点数、长整型
支持的列类型:字节、十进制、双精度、浮点数、整数、长整数、短整数
EXPRESSION – 一个可选表达式,用于指定应为预期类型的值的百分比。
支持的列类型:字节、十进制、双精度、浮点数、整数、长整数、短整数
示例:将整数作为字符串的列数据类型
以下示例规则检查给定列中字符串类型的值是否可以转换为整数。
ColumnDataType "colA" = "INTEGER"
示例:列数据类型整数作为字符串检查值的子集
以下示例规则检查给定列中是否有超过 90% 的字符串类型值可以转换为整数。
ColumnDataType "colA" = "INTEGER" with threshold > 0.9