编辑 Amazon Glue 托管数据转换节点
Amazon Glue Studio 提供了两种类型的转换:
-
Amazon Glue-原生转换 — 适用于所有用户并由 Amazon Glue 管理。
-
自定义视觉转换 — 允许您上传自己的转换以在 Amazon Glue Studio 中使用
Amazon Glue 托管数据转换节点
Amazon Glue Studio 提供一组内置转换,可用于处理数据。您的数据从任务图中的一个节点传递到名为 DynamicFrame
的数据结构(这是 Apache Spark SQL DataFrame
的扩展)中的另一个节点。
在任务的预填充图中,数据源和数据目标节点之间是 Transform - ApplyMapping 节点。您可以将此转换节点配置为修改数据,也可以使用其他转换。
以下内置转换适用于 Amazon Glue Studio:
-
ApplyMapping:将数据源中的数据属性键映射到数据目标中的数据属性键。您可以重命名键、修改键的数据类型以及选择要从数据集中删除的键。
-
SelectFields:选择要保留的数据属性键。
-
DropFields:选择要删除的数据属性键。
-
RenameField:重命名单个数据属性键。
-
Spigot:将数据样本写入 Amazon S3 存储桶。
-
Join:使用指定数据属性键上的比较短语将两个数据集联接到一个数据集。您可以使用内部、外部、左、右、左半和左反联接。
-
SplitFields:将数据属性键拆分为两个
DynamicFrames
。输出是DynamicFrames
集合:一个具有选定的数据属性键,另一个具有剩余的数据属性键。 -
SelectFromCollection:请从
DynamicFrames
集合中选择一个DynamicFrame
。输出是选定的DynamicFrame
。 -
FillMissingValues:查找数据集中缺少值的记录,并添加包含由输入决定的建议值的新字段
-
Filter:根据筛选条件将数据集拆分为两个。
-
DropNullFields:如果列中的所有值都为“null”(空),则从数据集中删除该列。
-
SQL:在文本输入字段中输入 SparkSQL 代码以使用 SQL 查询转换数据。输出为单个
DynamicFrame
。 -
聚合:对所选字段和行执行计算(例如平均值、总和、最小值、最大值),并使用新计算的值创建新字段。
-
扁平化:将结构内的字段提取到顶级字段中。
-
UUID:为每行添加一个带有通用唯一标识符的列。
-
标识符:为每行添加一个带有数字标识符的列。
-
到时间戳:将列转换为时间戳类型。
-
格式化时间戳:将时间戳列转换为格式化字符串。
-
Custom transform:在文本输入字段中输入代码以使用自定义转换。输出是
DynamicFrames
的集合。 -
条件路由器转换:对传入数据应用多个条件。传入数据的每一行都通过一组筛选条件进行评估,然后处理到相应的组中。