编辑 Amazon Glue 托管数据转换节点 - Amazon Glue Studio
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

编辑 Amazon Glue 托管数据转换节点

Amazon Glue Studio 提供了两种类型的转换:

  • Amazon Glue-原生转换 — 适用于所有用户并由 Amazon Glue 管理。

  • 自定义视觉转换 — 允许您上传自己的转换以在 Amazon Glue Studio 中使用

Amazon Glue 托管数据转换节点

Amazon Glue Studio 提供一组内置转换,可用于处理数据。您的数据从任务图中的一个节点传递到名为 DynamicFrame 的数据结构(这是 Apache Spark SQL DataFrame 的扩展)中的另一个节点。

在任务的预填充图中,数据源和数据目标节点之间是 Transform - ApplyMapping 节点。您可以将此转换节点配置为修改数据,也可以使用其他转换。

以下内置转换适用于 Amazon Glue Studio:

  • ApplyMapping:将数据源中的数据属性键映射到数据目标中的数据属性键。您可以重命名键、修改键的数据类型以及选择要从数据集中删除的键。

  • SelectFields:选择要保留的数据属性键。

  • DropFields:选择要删除的数据属性键。

  • RenameField:重命名单个数据属性键。

  • Spigot:将数据样本写入 Amazon S3 存储桶。

  • Join:使用指定数据属性键上的比较短语将两个数据集联接到一个数据集。您可以使用内部、外部、左、右、左半和左反联接。

  • SplitFields:将数据属性键拆分为两个 DynamicFrames。输出是 DynamicFrames 集合:一个具有选定的数据属性键,另一个具有剩余的数据属性键。

  • SelectFromCollection:请从 DynamicFrames 集合中选择一个 DynamicFrame。输出是选定的 DynamicFrame

  • FillMissingValues:查找数据集中缺少值的记录,并添加包含由输入决定的建议值的新字段

  • Filter:根据筛选条件将数据集拆分为两个。

  • DropNullFields:如果列中的所有值都为“null”(空),则从数据集中删除该列。

  • SQL:在文本输入字段中输入 SparkSQL 代码以使用 SQL 查询转换数据。输出为单个 DynamicFrame

  • 聚合:对所选字段和行执行计算(例如平均值、总和、最小值、最大值),并使用新计算的值创建新字段。

  • 扁平化:将结构内的字段提取到顶级字段中。

  • UUID:为每行添加一个带有通用唯一标识符的列。

  • 标识符:为每行添加一个带有数字标识符的列。

  • 到时间戳:将列转换为时间戳类型。

  • 格式化时间戳:将时间戳列转换为格式化字符串。

  • Custom transform:在文本输入字段中输入代码以使用自定义转换。输出是 DynamicFrames 的集合。

  • 条件路由器转换:对传入数据应用多个条件。传入数据的每一行都通过一组筛选条件进行评估,然后处理到相应的组中。