本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
替换异常值
根据参数中的设置更新归类为异常值的数据点值。
参数
-
sourceColumn
— 指定可能包含异常值的现有数值列的名称。 -
outlierStrategy
— 指定用于检测异常值的方法。有效值包括:-
Z_SCORE
— 当一个值与均值的偏差超过标准差阈值时,将其标识为异常值。 -
MODIFIED_Z_SCORE
— 当一个值与中位数的偏差超过中位数绝对偏差阈值时,将其标识为异常值。 -
IQR
— 当某个值超出列数据的第一个和最后一个四分位数时,将其标识为异常值。四分位数范围 (IQR) 用于衡量中间50%的数据点所在的位置。
-
-
threshold
— 指定检测异常值时要使用的阈值。如果用计算的分数outlierStrategy
超过此数字,则该sourceColumn
值将被标识为异常值。默认值为 3。 -
replaceType
— 指定替换异常值时要使用的方法。有效值包括:-
WINSORIZE_VALUES
— 指定使用最小和最大百分位数来限制值。 -
REPLACE_WITH_CUSTOM
-
REPLACE_WITH_EMPTY
-
REPLACE_WITH_NULL
-
REPLACE_WITH_MODE
-
REPLACE_WITH_AVERAGE
-
REPLACE_WITH_MEDIAN
-
REPLACE_WITH_SUM
-
REPLACE_WITH_MAX
-
-
modeType
— 表示在为时要使用的模态函数replaceType
的类型REPLACE_WITH_MODE
。有效值包括以下内容:MIN
MAX
、和AVERAGE
。 -
minValue
— 表示使用时trimValue
要应用的异常值范围的最小百分位数值。有效范围为 0 — 100。 -
maxValue
— 表示使用时trimValue
要应用的异常值范围的最大百分位数值。有效范围为 0 — 100。 -
value
— 指定使用时要插入的值REPLACE_WITH_CUSTOM
。 -
trimValue
— 指定是移除全部异常值还是部分异常值。此布尔值设置为 whTRUE
ereplaceType
n 是REPLACE_WITH_NULL
、REPLACE_WITH_MODE
、或WINSORIZE_VALUES
。FALSE
对于所有其他人,则默认为。-
FALSE
— 移除所有异常值 -
TRUE
— 移除排名超出和中指定的百分位数上限阈值的异常值。minValue
maxValue
-
以下示例显示了单个RecipeAction操作的语法。一个配方至少包含一个RecipeStep操作,一个配方步骤至少包含一个配方操作。配方操作会运行您指定的数据转换。一组配方操作按顺序运行以创建最终数据集。