REPLACE_OUTLIERS - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

REPLACE_OUTLIERS

根据参数中的设置,更新分类为异常值的数据点值。

参数
  • sourceColumn:指定可能包含异常值的现有数值列的名称。

  • outlierStrategy:指定用于检测异常值的方法。有效值包括:

    • Z_SCORE:当一个值与均值的偏差超过标准差阈值时,将其标识为异常值。

    • MODIFIED_Z_SCORE:当一个值与中位数的偏差超过中位数绝对偏差阈值时,将其标识为异常值。

    • IQR:当一个值超过列数据的第一和第三分位数时,将其标识为异常值。四分位间距(IQR)衡量中间 50% 数据点所在的位置。

  • threshold:指定要在检测异常值时使用的阈值。如果使用 outlierStrategy 计算的分数超过此数字,则将 sourceColumn 值标识为异常值。默认值为 3。

  • replaceType:指定替换异常值时要使用的方法。有效值包括:

    • WINSORIZE_VALUES:指定使用最小和最大百分位数来限制值。

    • REPLACE_WITH_CUSTOM

    • REPLACE_WITH_EMPTY

    • REPLACE_WITH_NULL

    • REPLACE_WITH_MODE

    • REPLACE_WITH_AVERAGE

    • REPLACE_WITH_MEDIAN

    • REPLACE_WITH_SUM

    • REPLACE_WITH_MAX

  • modeType:指示当 replaceTypeREPLACE_WITH_MODE 时要使用的模态函数的类型。有效值包括:MINMAXAVERAGE

  • minValue:指示使用 trimValue 时要应用的异常值范围的最小百分位数值。有效范围为 0–100。

  • maxValue:指示使用 trimValue 时要应用的异常值范围的最大百分位数值。有效范围为 0–100。

  • value:指定使用 REPLACE_WITH_CUSTOM 时要插入的值。

  • trimValue:指定是删除全部异常值还是部分异常值。当 replaceTypeREPLACE_WITH_NULLREPLACE_WITH_MODEWINSORIZE_VALUES 时,此布尔值设置为 TRUE。所有其他则默认为 FALSE

    • FALSE:删除所有异常值

    • TRUE:删除排名超出 minValuemaxValue 中指定的百分位数上下限阈值的异常值。

以下示例显示了单个 RecipeAction 操作的语法。一个配方至少包含一个 RecipeStep 操作,一个配方步骤至少包含一个配方操作。配方操作运行您指定的数据转换。一组配方操作按顺序运行以创建最终数据集。

JSON

下面使用 JSON 语法显示了一个用作 DataBrew 配方的示例 RecipeStep 的成员的示例 RecipeAction。如需显示配方操作列表的语法示例,请参阅定义配方结构

例 JSON 示例
{ "Action": { "Operation": "REPLACE_OUTLIERS", "Parameters": { "maxValue": "95", "minValue": "5", "modeType": "AVERAGE", "outlierStrategy": "Z_SCORE", "replaceType": "REPLACE_WITH_MODE", "sourceColumn": "name-of-existing-column", "threshold": "3", "trimValue": "TRUE" } } }

有关在 API 操作中使用此配方操作的更多信息,请参阅 CreateRecipeUpdateRecipe。您可以在自己的代码中使用这些和其他 API 操作。

YAML

下面使用 YAML 语法显示了一个用作 DataBrew 配方的示例 RecipeStep 的成员的示例 RecipeAction。如需显示配方操作列表的语法示例,请参阅定义配方结构

例 YAML 示例
- Action: Operation: REMOVE_OUTLIERS Parameters: sourceColumn: name-of-existing-column outlierStrategy: Z_SCORE threshold: '3' replaceType: REPLACE_WITH_MODE modeType: AVERAGE minValue: '5' maxValue: '95' trimValue: 'TRUE'

有关在 API 操作中使用此配方操作的更多信息,请参阅 CreateRecipeUpdateRecipe。您可以在自己的代码中使用这些和其他 API 操作。