本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
RESCALE_OUTLIERS_WIT_SKEW
根据参数中的设置,返回一个新列,每行中包含重新缩放的异常值。此操作可通过应用指定的日志或根转换来减少分布偏差。我们建议使用此操作来处理偏斜的数据。
Parameters
-
sourceColumn
— 指定可能包含异常值的现有数字列的名称。 -
targetColumn
— 指定可能包含异常值的现有数字列的名称。 -
outlierStrategy
— 指定用于检测异常值的方法。包括下列有效值:-
Z_SCORE
— 将值与平均值的偏差超过标准差阈值时标识为异常值。 -
MODIFIED_Z_SCORE
— 将值与中位值的偏差超过中位绝对偏差阈值时标识为异常值。 -
IQR
— 当值超出列数据的第一个和最后一个四分位数时,将其标识为异常值。四分位数范围 (IQR) 测量中间 50% 的数据点所在的位置。
-
-
threshold
— 指定检测异常值时要使用的阈值。这些区域有:sourceColumn
如果使用outlierStrategy
超过了这个数字。默认值为 3。 -
skewFunction
— 指定替换异常值时要使用的方法。包括下列有效值:-
LOG — 应用强大的转换来减少正面和负面的倾斜。这是一个自然对数(2.718281828)。
-
ROOT(带
value = 3
) — 应用相当强大的转型来减少正面和负面的倾斜。(多维数据集根) -
ROOT(带
value = 2
) — 应用适度转换以仅减少正倾斜。(平方根) -
SQUARE — 应用适度转换以减少负面偏差。(平方形)
-
自定义转换 — 应用指定的
LOG
要么ROOT
使用中提供的自定义号码进行转换value
参数。
-
-
value
— 指定用于自定义转换的值。如果skewFunction
是 LOG,此值表示日志的基础。如果skewFunction
是 ROOT,此值代表根的力量。
以下示例显示了单个语法RecipeActionoperation. 一个食谱至少包含一个RecipeStep操作,一个处方步骤至少包含一个处方操作。一个配方操作运行您指定的数据转换。一组处方操作按顺序运行,以创建最终数据集。