编辑数据转换节点 - Amazon Glue Studio
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

编辑数据转换节点

Amazon Glue Studio 提供一组内置转换,可用于处理数据。您的数据从任务图中的一个节点传递到名为 DynamicFrame 的数据结构(这是 Apache Spark SQL DataFrame 的扩展)中的另一个节点。

在任务的预填充图中,数据源和数据目标节点之间是 Transform - ApplyMapping 节点。您可以将此转换节点配置为修改数据,也可以使用其他转换。

以下内置转换适用于 Amazon Glue Studio:

  • ApplyMapping:将数据源中的数据属性键映射到数据目标中的数据属性键。您可以重命名键、修改键的数据类型以及选择要从数据集中删除的键。

  • SelectFields:选择要保留的数据属性键。

  • DropFields:选择要删除的数据属性键。

  • RenameField:重命名单个数据属性键。

  • Spigot:将数据样本写入 Amazon S3 存储桶。

  • Join:使用指定数据属性键上的比较短语将两个数据集联接到一个数据集。您可以使用内部、外部、左、右、左半和左反联接。

  • SplitFields:将数据属性键拆分为两个 DynamicFrames。输出是 DynamicFrames 集合:一个具有选定的数据属性键,另一个具有剩余的数据属性键。

  • SelectFromCollection:请从 DynamicFrames 集合中选择一个 DynamicFrame。输出是选定的 DynamicFrame

  • FillMissingValues:查找数据集中缺少值的记录,并添加包含由输入决定的建议值的新字段

  • Filter:根据筛选条件将数据集拆分为两个。

  • DropNullFields:如果列中的所有值都为“null”(空),则从数据集中删除该列。

  • SQL:在文本输入字段中输入 SparkSQL 代码以使用 SQL 查询转换数据。输出为单个 DynamicFrame

  • Aggregate:对所选字段和行执行计算(例如平均值、总和、最小值、最大值),并使用新计算的值创建新字段。

  • Custom transform:在文本输入字段中输入代码以使用自定义转换。输出是 DynamicFrames 的集合。