本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
替换异常值
根据参数中的设置更新归类为异常值的数据点值。
参数
-
sourceColumn— 指定可能包含异常值的现有数值列的名称。 -
outlierStrategy— 指定用于检测异常值的方法。有效值包括:-
Z_SCORE— 当一个值与均值的偏差超过标准差阈值时,将其标识为异常值。 -
MODIFIED_Z_SCORE— 当一个值与中位数的偏差超过中位数绝对偏差阈值时,将其标识为异常值。 -
IQR— 当某个值超出列数据的第一个和最后一个四分位数时,将其标识为异常值。四分位数范围 (IQR) 用于衡量中间50%的数据点所在的位置。
-
-
threshold— 指定检测异常值时要使用的阈值。如果用计算的分数outlierStrategy超过此数字,则该sourceColumn值将被标识为异常值。默认值为 3。 -
replaceType— 指定替换异常值时要使用的方法。有效值包括:-
WINSORIZE_VALUES— 指定使用最小和最大百分位数来限制值。 -
REPLACE_WITH_CUSTOM -
REPLACE_WITH_EMPTY -
REPLACE_WITH_NULL -
REPLACE_WITH_MODE -
REPLACE_WITH_AVERAGE -
REPLACE_WITH_MEDIAN -
REPLACE_WITH_SUM -
REPLACE_WITH_MAX
-
-
modeType— 表示在为时要使用的模态函数replaceType的类型REPLACE_WITH_MODE。有效值包括以下内容:MINMAX、和AVERAGE。 -
minValue— 表示使用时trimValue要应用的异常值范围的最小百分位数值。有效范围为 0—100。 -
maxValue— 表示使用时trimValue要应用的异常值范围的最大百分位数值。有效范围为 0—100。 -
value— 指定使用时要插入的值REPLACE_WITH_CUSTOM。 -
trimValue— 指定是移除全部异常值还是部分异常值。此布尔值设置为 whTRUEereplaceTypen 是REPLACE_WITH_NULL、REPLACE_WITH_MODE、或WINSORIZE_VALUES。FALSE对于所有其他人,则默认为。-
FALSE— 移除所有异常值 -
TRUE— 移除排名超出和中指定的百分位数上限阈值的异常值。minValuemaxValue
-
以下示例显示了单曲的语法 RecipeAction操作。一个食谱至少包含一个 RecipeStep操作,并且配方步骤至少包含一个配方操作。配方操作会运行您指定的数据转换。一组配方操作按顺序运行以创建最终数据集。