RESCALE_OUTLIERS_WITH_SKEW
根据参数中的设置返回一个新列,每行中都包含一个重新缩放的异常值。此操作通过应用指定的对数或根转换来减少分布偏度。建议使用此操作来处理偏斜的数据。
参数
-
sourceColumn:指定可能包含异常值的现有数值列的名称。 -
targetColumn:指定可能包含异常值的现有数值列的名称。 -
outlierStrategy:指定用于检测异常值的方法。有效值包括:-
Z_SCORE:当一个值与均值的偏差超过标准差阈值时,将其标识为异常值。 -
MODIFIED_Z_SCORE:当一个值与中位数的偏差超过中位数绝对偏差阈值时,将其标识为异常值。 -
IQR:当一个值超过列数据的第一和第三分位数时,将其标识为异常值。四分位间距(IQR)衡量中间 50% 数据点所在的位置。
-
-
threshold:指定要在检测异常值时使用的阈值。如果使用outlierStrategy计算的分数超过此数字,则将sourceColumn值标识为异常值。默认值为 3。 -
skewFunction:指定替换异常值时要使用的方法。有效值包括:-
LOG:应用强转换以减少正负偏斜。这是自然对数(2.718281828)。
-
ROOT(
value = 3):应用极强转换以减少正负偏斜。(立方根) -
ROOT(
value = 2):应用适度转换以仅减少正偏斜。(平方根) -
SQUARE:应用适度转换以减少负偏斜。(平方)
-
自定义转换:使用
value参数中提供的自定义数字应用指定的LOG或ROOT转换。
-
-
value:指定要用于自定义转换的值。如果skewFunction是 LOG,则此值表示对数的底。如果skewFunction是 ROOT,则此值表示根的幂次。
以下示例显示了单个 RecipeAction 操作的语法。一个配方至少包含一个 RecipeStep 操作,一个配方步骤至少包含一个配方操作。配方操作运行您指定的数据转换。一组配方操作按顺序运行以创建最终数据集。