本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
FillWithMode 类
FillWithMode
转换会根据您指定的电话号码格式设置列的格式。您也可以指定决定项逻辑,其中一些值是相同的。例如,考虑以下情况:1 2 2 3 3 4
MINIMUM
modeType 导致 FillWithMode
返回 2 作为模式值。如果 modeType 为 MAXIMUM
,则模式为 3。如果是 AVERAGE
,模式为 2.5。
示例
from awsglue.context import * from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (1055.123, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FillWithMode.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1", mode_type="MAXIMUM" ) df_output.show() except: print("Unexpected Error happened ") raise
输出
给定代码的输出如下:
``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 1055.123| 13.12| | 1055.123| 13.12| | 13.12| 13.12| | 1055.123| 13.12| +---------------+---------------+ ```
“awsglue.data_quality”模块的 FillWithMode
转换应用于“input_df”DataFrame。它将 source_column_1
列中的“null”值替换为该列中非 null 值中的最大值(“mode_type="MAXIMUM"”)。
在本例中,source_column_1
列中的最大值为“1055.123”。因此,在输出 DataFrame“df_output”中,source_column_1
中的“null”值被替换为“1055.123”。
方法
__call__(spark_context, data_frame, source_column, mode_type)
FillWithMode
转换会格式化列中字符串的大小写。
-
source_column
– 现有列的名称。 -
mode_type
– 如何解析数据中的平局值。此值必须是MINIMUM
、NONE
、AVERAGE
或MAXIMUM
其中之一。
apply(cls, *args, **kwargs)
继承自 GlueTransform
apply。
name(cls)
继承自 GlueTransform
name。
describeArgs(cls)
继承自 GlueTransform
describeArgs。
describeReturn(cls)
继承自 GlueTransform
describeReturn。
describeTransform(cls)
继承自 GlueTransform
describeTransform。
describeErrors(cls)
继承自 GlueTransform
describeErrors。
describe(cls)
继承自 GlueTransform
describe。