替换_异常值 - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

替换_异常值

根据参数中的设置更新分类为异常值的数据点值。

Parameters
  • sourceColumn— 指定可能包含异常值的现有数字列的名称。

  • outlierStrategy— 指定用于检测异常值的方法。包括下列有效值:

    • Z_SCORE— 将值与平均值的偏差超过标准差阈值时标识为异常值。

    • MODIFIED_Z_SCORE— 将值与中位值的偏差超过中位绝对偏差阈值时标识为异常值。

    • IQR— 当值超出列数据的第一个和最后一个四分位数时,将其标识为异常值。四分位数范围 (IQR) 测量中间 50% 的数据点所在的位置。

  • threshold— 指定检测异常值时要使用的阈值。这些区域有:sourceColumn如果使用outlierStrategy超过了这个数字。默认值为 3。

  • replaceType— 指定替换异常值时要使用的方法。包括下列有效值:

    • WINSORIZE_VALUES— 指定使用最小和最大百分位数来设置值的上限。

    • REPLACE_WITH_CUSTOM

    • REPLACE_WITH_EMPTY

    • REPLACE_WITH_NULL

    • REPLACE_WITH_MODE

    • REPLACE_WITH_AVERAGE

    • REPLACE_WITH_MEDIAN

    • REPLACE_WITH_SUM

    • REPLACE_WITH_MAX

  • modeType— 指示在何时使用的模态函数的类型replaceTypeREPLACE_WITH_MODE. 有效值包括:MINMAX, 和AVERAGE.

  • minValue— 表示在以下情况下应用的离群值范围的最小百分位数值trimValue已使用。有效范围为 0—100。

  • maxValue— 表示在以下情况下应用的离群值范围的最大百分位数值trimValue已使用。有效范围为 0—100。

  • value— 指定使用时要插入的值REPLACE_WITH_CUSTOM.

  • trimValue— 指定是删除全部还是部分异常值。此布尔值设置为TRUE什么时候replaceTypeREPLACE_WITH_NULLREPLACE_WITH_MODE,或者WINSORIZE_VALUES. 它默认为FALSE对于所有其他人。

    • FALSE— 删除所有异常值

    • TRUE— 删除排名超出中指定的百分位数上限阈值的异常值minValuemaxValue.

以下示例显示了单个语法RecipeActionoperation. 一个食谱至少包含一个RecipeStep操作,一个处方步骤至少包含一个处方操作。一个操作配方运行您指定的数据转换。一组处方操作按顺序运行,以创建最终数据集。

JSON

下面是一个示例:RecipeAction用作示例的成员RecipeStep对于 DataBrewRecipe,使用 JSON 语法。有关显示配方操作列表的语法示例,请参阅定义配方结构.

例 JSON 中的示例
{ "Action": { "Operation": "REPLACE_OUTLIERS", "Parameters": { "maxValue": "95", "minValue": "5", "modeType": "AVERAGE", "outlierStrategy": "Z_SCORE", "replaceType": "REPLACE_WITH_MODE", "sourceColumn": "name-of-existing-column", "threshold": "3", "trimValue": "TRUE" } } }

有关在 API 操作中使用该配方操作的更多信息,请参阅CreateRecipe要么UpdateRecipe. 您可以在自己的代码中使用这些操作和其他操作。

YAML

下面是一个示例:RecipeAction用作示例的成员RecipeStep对于 DataBrewRecipe,使用 YAML 语法。有关显示配方操作列表的语法示例,请参阅定义配方结构.

例 YAML 中的示例
- Action: Operation: REMOVE_OUTLIERS Parameters: sourceColumn: name-of-existing-column outlierStrategy: Z_SCORE threshold: '3' replaceType: REPLACE_WITH_MODE modeType: AVERAGE minValue: '5' maxValue: '95' trimValue: 'TRUE'

有关在 API 操作中使用该配方操作的更多信息,请参阅CreateRecipe要么UpdateRecipe. 您可以在自己的代码中使用这些操作和其他操作。