ONE_HOT_ENCODING - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

ONE_HOT_ENCODING

创建 n 个数值列,其中 n 是所选类别变量中唯一值的数量。

例如,假设有一个名为 shirt_size 的列。衬衫有小号、中号、大号或超大号可供选择。列数据可能看起来类似以下内容。

shirt_size ----------- L XL M S M M S XL M L XL M

在这种情况下,shirt_size 有四个不同的值。因此,ONE_HOT_ENCODING 生成四个新列。每个新列都被命名为 shirt_size_x,其中 x 表示不同的 shirt_size 值。

shirt_size 和所生成四列的结果如下所示。

shirt_size shirt_size_S shirt_size_M shirt_size_L shirt_size_XL ------------ ------------ ------------ ------------ ------------- L 0 0 1 0 XL 0 0 0 1 M 0 1 0 0 S 1 0 0 0 M 0 1 0 0 M 0 1 0 0 S 1 0 0 0 XL 0 0 0 1 M 0 1 0 0 L 0 0 1 0 XL 0 0 0 1 M 0 1 0 0

您为 ONE_HOT_ENCODING 指定的列最多可以有十(10)个不同的值。

参数
  • sourceColumn:现有列的名称。该列最多可以有 10 个不同的值。

例 示例

{ "RecipeAction": { "Operation": "ONE_HOT_ENCODING", "Parameters": { "sourceColumn": "shirt_size" } } }