FillWithMode 类 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

FillWithMode 类

FillWithMode 转换会根据您指定的电话号码格式设置列的格式。您也可以指定决定项逻辑,其中一些值是相同的。例如,考虑以下情况:1 2 2 3 3 4

MINIMUM modeType 导致 FillWithMode 返回 2 作为模式值。如果 modeType 为 MAXIMUM,则模式为 3。如果是 AVERAGE,模式为 2.5。

示例

from awsglue.context import * from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (1055.123, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FillWithMode.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1", mode_type="MAXIMUM" ) df_output.show() except: print("Unexpected Error happened ") raise

输出

给定代码的输出如下:

``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 1055.123| 13.12| | 1055.123| 13.12| | 13.12| 13.12| | 1055.123| 13.12| +---------------+---------------+ ```

“awsglue.data_quality”模块的 FillWithMode 转换应用于“input_df”DataFrame。它将 source_column_1 列中的“null”值替换为该列中非 null 值中的最大值(“mode_type="MAXIMUM"”)。

在本例中,source_column_1 列中的最大值为“1055.123”。因此,在输出 DataFrame“df_output”中,source_column_1 中的“null”值被替换为“1055.123”。

方法

__call__(spark_context, data_frame, source_column, mode_type)

FillWithMode 转换会格式化列中字符串的大小写。

  • source_column – 现有列的名称。

  • mode_type – 如何解析数据中的平局值。此值必须是 MINIMUMNONEAVERAGEMAXIMUM 其中之一。

apply(cls, *args, **kwargs)

继承自 GlueTransform apply

name(cls)

继承自 GlueTransform name

describeArgs(cls)

继承自 GlueTransform describeArgs

describeReturn(cls)

继承自 GlueTransform describeReturn

describeTransform(cls)

继承自 GlueTransform describeTransform

describeErrors(cls)

继承自 GlueTransform describeErrors

describe(cls)

继承自 GlueTransform describe