分段化 - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

分段化

分段化(在控制台中称为 binning)将一列数值中的项目分组,将它们分组到由数值范围定义的箱子中,然后输出一个显示每行数据桶的新列。可以使用分区和百分比完成分区和拆分。下面的第一个示例使用拆分,第二个示例使用百分比。

参数
  • sourceColumn— 现有列的名称。

    targetColumn— 要创建的新列的名称。

    bucketNames— 存储段名称列表。

    splits— 存储段等级列表。存储桶是连续的,一个存储桶的上限将是下一个存储桶的下限。

    percentage— 将按百分比描述每个存储桶。

例 使用分区和的示例

{ "Action": { "Operation": "BUCKETIZATION", "Parameters": { "sourceColumn": "level", "targetColumn": "bin", "bucketNames": "[\"Bin1\",\"Bin2\",\"Bin3\"]", "splits": "[\"-Infinity\",\"2\",\"20\",\"Infinity\"]" } } }
例 使用百分比的示例
{ "Action": { "Operation": "BUCKETIZATION", "Parameters": { "sourceColumn": "level", "targetColumn": "bin", "bucketNames": "[\"Bin1\",\"Bin2\"]", "percentage": "50" } } }