REPLACE_OUTLIERS
根据参数中的设置,更新分类为异常值的数据点值。
参数
-
sourceColumn:指定可能包含异常值的现有数值列的名称。 -
outlierStrategy:指定用于检测异常值的方法。有效值包括:-
Z_SCORE:当一个值与均值的偏差超过标准差阈值时,将其标识为异常值。 -
MODIFIED_Z_SCORE:当一个值与中位数的偏差超过中位数绝对偏差阈值时,将其标识为异常值。 -
IQR:当一个值超过列数据的第一和第三分位数时,将其标识为异常值。四分位间距(IQR)衡量中间 50% 数据点所在的位置。
-
-
threshold:指定要在检测异常值时使用的阈值。如果使用outlierStrategy计算的分数超过此数字,则将sourceColumn值标识为异常值。默认值为 3。 -
replaceType:指定替换异常值时要使用的方法。有效值包括:-
WINSORIZE_VALUES:指定使用最小和最大百分位数来限制值。 -
REPLACE_WITH_CUSTOM -
REPLACE_WITH_EMPTY -
REPLACE_WITH_NULL -
REPLACE_WITH_MODE -
REPLACE_WITH_AVERAGE -
REPLACE_WITH_MEDIAN -
REPLACE_WITH_SUM -
REPLACE_WITH_MAX
-
-
modeType:指示当replaceType为REPLACE_WITH_MODE时要使用的模态函数的类型。有效值包括:MIN、MAX和AVERAGE。 -
minValue:指示使用trimValue时要应用的异常值范围的最小百分位数值。有效范围为 0–100。 -
maxValue:指示使用trimValue时要应用的异常值范围的最大百分位数值。有效范围为 0–100。 -
value:指定使用REPLACE_WITH_CUSTOM时要插入的值。 -
trimValue:指定是删除全部异常值还是部分异常值。当replaceType为REPLACE_WITH_NULL、REPLACE_WITH_MODE或WINSORIZE_VALUES时,此布尔值设置为TRUE。所有其他则默认为FALSE。-
FALSE:删除所有异常值 -
TRUE:删除排名超出minValue和maxValue中指定的百分位数上下限阈值的异常值。
-
以下示例显示了单个 RecipeAction 操作的语法。一个配方至少包含一个 RecipeStep 操作,一个配方步骤至少包含一个配方操作。配方操作运行您指定的数据转换。一组配方操作按顺序运行以创建最终数据集。