ColumnDataType - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

ColumnDataType

检查给定列中的值是否可以在 Apache Spark 中转换为提供的类型。接受 with threshold 表达式以检查列中值的子集。

语法

ColumnDataType <COL_NAME> = <EXPECTED_TYPE>
  • COL_NAME — 要根据其评估数据质量规则的列的名称。

    支持的列类型:字符串类型

    支持的列类型:字节、十进制、双精度、浮点数、整数、长整数、短整数

  • EXPECTED_TYPE – 列中值的预期类型。

    支持的值:布尔值、日期、时间戳、整数、双精度、浮点数、长整型

    支持的列类型:字节、十进制、双精度、浮点数、整数、长整数、短整数

  • EXPRESSION – 一个可选表达式,用于指定应为预期类型的值的百分比。

    支持的列类型:字节、十进制、双精度、浮点数、整数、长整数、短整数

示例:将整数作为字符串的列数据类型

以下示例规则检查给定列中字符串类型的值是否可以转换为整数。

ColumnDataType "colA" = "INTEGER"

示例:列数据类型整数作为字符串检查值的子集

以下示例规则检查给定列中是否有超过 90% 的字符串类型值可以转换为整数。

ColumnDataType "colA" = "INTEGER" with threshold > 0.9