本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
替换_异常值
根据参数中的设置更新分类为异常值的数据点值。
Parameters
-
sourceColumn
— 指定可能包含异常值的现有数字列的名称。 -
outlierStrategy
— 指定用于检测异常值的方法。包括下列有效值:-
Z_SCORE
— 将值与平均值的偏差超过标准差阈值时标识为异常值。 -
MODIFIED_Z_SCORE
— 将值与中位值的偏差超过中位绝对偏差阈值时标识为异常值。 -
IQR
— 当值超出列数据的第一个和最后一个四分位数时,将其标识为异常值。四分位数范围 (IQR) 测量中间 50% 的数据点所在的位置。
-
-
threshold
— 指定检测异常值时要使用的阈值。这些区域有:sourceColumn
如果使用outlierStrategy
超过了这个数字。默认值为 3。 -
replaceType
— 指定替换异常值时要使用的方法。包括下列有效值:-
WINSORIZE_VALUES
— 指定使用最小和最大百分位数来设置值的上限。 -
REPLACE_WITH_CUSTOM
-
REPLACE_WITH_EMPTY
-
REPLACE_WITH_NULL
-
REPLACE_WITH_MODE
-
REPLACE_WITH_AVERAGE
-
REPLACE_WITH_MEDIAN
-
REPLACE_WITH_SUM
-
REPLACE_WITH_MAX
-
-
modeType
— 指示在何时使用的模态函数的类型replaceType
是REPLACE_WITH_MODE
. 有效值包括:MIN
、MAX
, 和AVERAGE
. -
minValue
— 表示在以下情况下应用的离群值范围的最小百分位数值trimValue
已使用。有效范围为 0—100。 -
maxValue
— 表示在以下情况下应用的离群值范围的最大百分位数值trimValue
已使用。有效范围为 0—100。 -
value
— 指定使用时要插入的值REPLACE_WITH_CUSTOM
. -
trimValue
— 指定是删除全部还是部分异常值。此布尔值设置为TRUE
什么时候replaceType
是REPLACE_WITH_NULL
、REPLACE_WITH_MODE
,或者WINSORIZE_VALUES
. 它默认为FALSE
对于所有其他人。-
FALSE
— 删除所有异常值 -
TRUE
— 删除排名超出中指定的百分位数上限阈值的异常值minValue
和maxValue
.
-
以下示例显示了单个语法RecipeActionoperation. 一个食谱至少包含一个RecipeStep操作,一个处方步骤至少包含一个处方操作。一个操作配方运行您指定的数据转换。一组处方操作按顺序运行,以创建最终数据集。