ONE_HOT_ENCODING
创建 n 个数值列,其中 n 是所选类别变量中唯一值的数量。
例如,假设有一个名为 shirt_size 的列。衬衫有小号、中号、大号或超大号可供选择。列数据可能看起来类似以下内容。
shirt_size
-----------
L
XL
M
S
M
M
S
XL
M
L
XL
M在这种情况下,shirt_size 有四个不同的值。因此,ONE_HOT_ENCODING 生成四个新列。每个新列都被命名为 shirt_size_,其中 x 表示不同的 xshirt_size
值。
shirt_size 和所生成四列的结果如下所示。
shirt_size shirt_size_S shirt_size_M shirt_size_L shirt_size_XL
------------ ------------ ------------ ------------ -------------
L 0 0 1 0
XL 0 0 0 1
M 0 1 0 0
S 1 0 0 0
M 0 1 0 0
M 0 1 0 0
S 1 0 0 0
XL 0 0 0 1
M 0 1 0 0
L 0 0 1 0
XL 0 0 0 1
M 0 1 0 0
您为 ONE_HOT_ENCODING 指定的列最多可以有十(10)个不同的值。
参数
-
sourceColumn:现有列的名称。该列最多可以有 10 个不同的值。
例 示例
{ "RecipeAction": { "Operation": "ONE_HOT_ENCODING", "Parameters": { "sourceColumn": "shirt_size" } } }