使用联合合并行 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用联合合并行

如果要联合来自多个具有相同架构的数据来源的行,则可以使用联合转换节点。

联合转换有两种类型:

  1. ALL — 应用 ALL 时,生成的联合不会删除重复行。

  2. DISTINCT — 应用 DISTINCT 时,生成的联合会删除重复的行。

联合与联接

您可以使用联合来合并行。您可以使用联接来合并列。

在 Visual ETL 画布中使用联合转换
  1. 添加多个数据来源以执行联合转换。要添加数据来源,请打开资源面板,然后从“来源”选项卡中选择数据来源。在使用联合转换之前,必须确保联合中涉及的所有数据来源都具有相同的架构和结构。

  2. 如果您至少有两个数据来源要使用联合转换进行组合,请将其添加到画布中来创建联合转换。打开画布上的资源面板并搜索“联合”。您也可以在资源面板中选择“转换”选项卡,向下滚动直到找到联合转换,然后选择联合

  3. 在作业画布上选择联合节点。在节点属性窗口中,选择要连接到联合转换的父节点。

  4. Amazon Glue 检查兼容性以确保联合转换可以应用于所有数据来源。如果数据来源的架构相同,则允许该操作。如果数据来源没有相同的架构,则会显示一条无效的错误消息:“此联合的输入架构不一样。请考虑使用 ApplyMapping 来匹配架构。” 要修复此问题,请选择使用 ApplyMapping

  5. 选择联合类型。

    1. 全部 - 默认情况下,选择“全部联合”类型;如果数据组合中有重复行,这将导致重复行。

    2. 不同 - 如果要从生成的数据组合中删除重复的行,请选择“不同”。