在中编辑ETL作业 AWS Glue Studio - AWS Glue Studio
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在中编辑ETL作业 AWS Glue Studio

在创建新作业或保存作业后,您可以使用 AWS Glue Studio 修改ETL作业。您可以通过编辑可视化图表编辑器中的节点来实现此操作。您还可以添加和删除节点以创建更复杂的ETL作业。

访问作业图表编辑器

使用 AWS Glue Studio 可视图形编辑器编辑ETL作业。

您可以通过以下方式访问可视化图表编辑器:

  • 选择 工作 在控制台导航窗格中。在 管理作业 ,在 您的工作 列表。然后,您可以:

    • 名称 列打开该作业的可视化图表编辑器。

    • 选择作业,然后选择 编辑作业操作 列表。

  • 选择 监控 在控制台导航窗格中。在 监控作业运行 ,在 作业运行故障 列表。选择要编辑的作业,然后选择 查看运行详细信息. 这会打开 运行详细信息 选项卡。然后,您可以选择 视觉 选项卡打开可视化图表编辑器。

如果作业是使用创建的,则只能编辑可视化图表编辑器中的作业 AWS Glue Studio. 如果工作是使用 AWS Glue 控制台、API命令或命令行界面(CLI),则您必须使用 AWS Glue 控制台、API或CLI以编辑作业。

编辑数据源节点

要指定数据源属性,您首先在图表中选择一个数据源节点。然后,在节点详细信息面板中的右侧,您可以配置节点属性。

  1. 转到新作业或已保存作业的可视化图表编辑器。

  2. 在图表中选择一个数据源节点。

  3. 选择 节点属性 选项卡,然后输入以下信息:

    • 名称: (可选)输入要与作业图表中的节点关联的名称。此名称应在此作业的所有节点中唯一。

    • 节点类型: 节点类型确定节点执行的操作。在选项列表中 节点类型,请选择标题下列出的值之一 数据源.

      您选择的源类型表必须存在于 AWS Glue 数据目录。 AWS Glue Studio 不会创建表。

  4. 选择 数据源属性 选项卡,然后输入以下信息:

    • 数据库: 在 Data Catalog 包含您要用于此作业的源表的。您可以使用搜索字段按数据库名称搜索数据库。

    • : 从列表中选择与源数据关联的表。此表必须已存在于 AWS Glue 数据目录. 您可以使用搜索字段按名称搜索表。

    • 分区谓词: 输入一个基于SparkSQL的布尔表达式,该表达式只包含分区列。例如:"(year=='2020' and month=='04')"

  5. 选择数据库和表后,您可以通过选择 输出模式 选项卡。此选项卡上显示的信息为只读信息,无法在作业编辑的这个阶段进行编辑。

编辑数据转换节点

AWS Glue Studio 提供一组内置转换,可用于处理数据。您的数据在名为 DynamicFrame,这是ApacheSparkSQL的扩展 DataFrame.

在作业的预填充图表中,数据源和数据目标节点之间的 转换- ApplyMapping 节点。您可以配置此转换节点以修改数据,也可以使用其他转换。

映射和转换概述

以下内置转换可用于 AWS Glue Studio:

  • ApplyMapping: 将数据源中的数据属性键映射到数据目标中的数据属性键。您可以重命名键、修改键的数据类型,以及选择要从数据集挂断的键。

  • SelectFields: 选择要保留的数据属性键。

  • DropFields: 选择要放置的数据属性键。

  • RenameField: 重命名单个数据属性密钥。

  • 斯皮戈特: 将数据样本写入 Amazon S3 桶。

  • 加入: 使用指定数据属性键上的比较短语将两个数据集联接为一个数据集。您可以使用内、外、左、右、左、左、(不包括联接)和右(不包括联接)。

  • SplitFields: 将数据属性键拆分为两个 DynamicFrames。输出是 DynamicFrames:一个具有选定的数据属性密钥,另一个具有剩余的数据属性密钥。

  • SelectFromCollection: 选择一个 DynamicFrame 来自一系列 DynamicFrames。输出是选定的 DynamicFrame.

  • 过滤器: 根据筛选器条件将数据集拆分为两个。

  • 自定义转换: 在文本输入字段中输入代码以使用自定义转换。输出是 DynamicFrames

使用 ApplyMapping 重新映射数据属性键

一种 ApplyMapping 将源数据属性密钥变换为为目标数据配置的所需。在 ApplyMapping 转换节点,您可以:

  • 更改多个数据属性键的名称。

  • 如果支持新的数据类型且两种数据类型之间存在转换路径,则更改数据属性键的数据类型。

  • 通过指示要放置的数据属性键,选择数据属性键的子集。

你可以添加额外的 ApplyMapping 节点到图表–例如,修改其他数据源或遵循 加入 转换。

  1. 如果需要,通过选择 添加节点 图标( 
                纯蓝色方框内的白色加号
              )在浮动工具栏中。

  2. 选中转换节点后,选择转换 ApplyMapping 用于 节点类型节点属性 选项卡。

  3. 节点属性 选项卡,在图表中输入节点的名称。如果尚未选择节点父项,请从 节点父 列表用作转换的输入源。

  4. 选择 转型 选项卡。

  5. 修改输入框架:

    • 要重命名数据属性键,请在 目标键 字段。

    • 要更改数据属性键的数据类型,请从 数据类型 列表。

    • 要从目标框架中移除数据属性键,请选择 跌落 复选框。

  6. 选择 输出方案 选项卡 以查看应用转换后框架的外观。

使用 SelectFields 移除大多数数据属性键

您可以使用 SelectFields 转换。您指明了要保留的数据属性键以及其余的键将从数据集中移除。

  1. 如果需要,通过选择 添加节点 图标( 
                纯蓝色方框内的白色加号
              )在浮动工具栏中。

  2. 选中转换节点后,选择转换 SelectFields 用于 节点类型节点属性 选项卡。

  3. 节点属性 选项卡,在图表中输入节点的名称。如果尚未选择节点父项,请从 节点父 列表用作转换的输入源。

  4. 选择 转型 选项卡。

  5. 在标题下 SelectFields,在数据集中选择要保留的数据属性键。未选择的任何数据属性键都从数据集上丢弃。

    您还可以选择列标题旁的复选框 字段 自动选择数据集中的所有数据属性键。然后,您可以取消选择个别数据属性键以将其从数据集中移除。

  6. 选择 输出方案 选项卡,查看应用转换后框架的外观。

使用 DropFields 以保留大部分数据属性键

您可以使用 DropFields 转换。您指明了要从数据集中移除的数据属性键,其余键保留。

  1. 如果需要,通过选择 添加节点 图标( 
                纯蓝色方框内的白色加号
              )在浮动工具栏中。

  2. 选中转换节点后,选择转换 DropFields 用于 节点类型节点属性 选项卡。

  3. 节点属性 选项卡,在图表中输入节点的名称。如果尚未选择节点父项,请从 节点父 列表用作转换的输入源。

  4. 选择 转型 选项卡。

  5. 在标题下 DropFields时,选择要从数据源丢弃的数据属性键。

    您还可以选择列标题旁的复选框 字段 自动选择数据集中的所有数据属性键。然后,您可以取消选择个别数据属性键,以便将其保留在数据集中。

  6. 选择 输出方案 选项卡,查看应用转换后框架的外观。

重命名属性密钥

您可以使用 RenameField 转换以更改数据集中单个属性键的名称。

提示

要重命名数据集中的多个数据属性键,请使用 ApplyMapping 转换。

  1. 如果需要,通过选择 添加节点 图标( 
                纯蓝色方框内的白色加号
              )在浮动工具栏中。

  2. 选中转换节点后,选择转换 RenameField 用于 节点类型节点属性 选项卡。

  3. 节点属性 选项卡,在图表中输入节点的名称。如果尚未选择节点父项,请从 节点父 列表用作转换的输入源。

  4. 选择 重命名字段配置 选项卡。

  5. 在标题下 RenameField 配置,请从 源路径 然后在 目标路径 字段。

  6. 选择 输出方案 选项卡,查看应用转换后框架的外观。

使用Spigot来对数据集进行抽样

要测试作业执行的转换,您可能需要获取数据示例以检查转换是否按预期工作。的 斯皮戈特 将记录子集从数据集转换为 Amazon S3 桶。数据采样方法可以是从文件开始的特定记录数或用于选取记录的概率因子。

  1. 如果需要,通过选择 添加节点 图标( 
                纯蓝色方框内的白色加号
              )在浮动工具栏中。

  2. 选中转换节点后,选择转换 斯皮戈特 用于 节点类型节点属性 选项卡。

  3. 节点属性 选项卡,在图表中输入节点的名称。如果尚未选择节点父项,请从 节点父 列表用作转换的输入源。

  4. 选择 尖头配置 选项卡。

  5. 输入 Amazon S3 路径或选择 浏览S3 来查找 Amazon S3. 这是作业写入包含数据样本的JSON文件的位置。

  6. 输入抽样方法的信息。您可以指定从数据集开始开始写入的多个记录,以及选择任何给定记录的概率(以小数值输入,最大值为1)。

    例如,要从数据集写入前50条记录,您可以将文件开头的记录数设置为50,概率设置为1(100%)。

联接数据集

加入 转换允许您将两个数据集合并为一个。您可以在每个数据集的框架中指定关键名称 比较。输出 DynamicFrame 包含键符合联接条件的行。每个数据集内符合联接条件的行将合并为输出中的单行 DynamicFrame 包含数据集中找到的所有列。

  1. 如果只有一个可用的数据源,则必须向图表添加新数据源节点。有关更多信息,请参阅 添加节点到作业图表

  2. 选择其中一个用于联接的源节点,然后通过选择 添加节点 图标( 
                纯蓝色方框内的白色加号
              )在浮动工具栏中。

  3. 选中转换节点后,选择转换 加入 用于 节点类型节点属性 选项卡。您可以选择为节点提供新名称。

  4. 节点属性 选项卡,标题下 节点父,添加父节点以便有两个数据集为联接提供输入。父项可以是数据源节点或转换节点。

    注意

    联接只能有两个父节点。

  5. 选择 转型 选项卡。

    如果您看到一条消息,指出关键名称存在冲突,您可以:

    • 选择 解决 来自动添加 ApplyMapping 将节点转换为图表。的 ApplyMapping 节点为数据集中与其他数据集中的键具有相同名称的任何键添加前缀。例如,如果您使用默认值 right,则右侧数据集中与左侧数据集中的键具有相同名称的任何键都将重命名为 (right)keyname.

    • 在图表的早期部分手动添加转换节点以删除或重命名冲突键。

  6. 选择联接类型 联接类型 列表。

    • 内部联接: 来自每个数据集的符合联接条件的所有行。不满足联接条件的行将不会返回。

    • 左联接: 来自左侧数据集的所有行以及来自右侧数据集且满足联接条件的行。

    • 正确加入: 来自右侧数据集的所有行以及只来自左侧数据集且满足联接条件的行

    • 外部联接: 来自两个数据集的所有行。

    • 左侧排除联接: 左侧数据集中所有不符合联接条件的行。

    • 右侧(不包括联接): 右侧数据集中所有不符合联接条件的行。

  7. 转型 选项卡,标题下 联接条件,选择 添加条件. 从每个数据集选择要比较的属性键. 比较运算符左侧的属性键称为左侧数据集,右侧的属性键称为右侧数据集。

    对于更复杂的联接条件,您可以通过选择 添加条件 多次。如果您不小心添加了一个条件,您可以使用删除图标( 
                垃圾桶的轮廓
              )将其移除。

  8. 选择 输出方案 选项卡,查看应用转换后框架的外观。

对于联接输出框架的示例,请考虑使用下列属性键在两个数据集之间进行联接:

Left: {id, dept, hire_date, salary, employment_status} Right: {id, first_name, last_name, hire_date, title}

联接已配置为匹配 idhire_date 使用 = 比较运算符。

因为两个数据集均包含 idhire_date 按键,您使用的是 解决 选项以自动添加前缀 right 到右侧数据集中的键。

输出方案中的键为:

{id, dept, hire_date, salary, employment_status, (right)id, first_name, last_name, (right)hire_date, title}

使用 SplitFields 将数据集拆分为两个

SplitFields 转换允许您选择输入数据集中的一些数据属性键,并将其放入一个数据集,而未选择的键则放入单独的数据集。此转换的输出是 DynamicFrames.

注意

您必须使用 SelectFromCollection 转换以转换的集合 DynamicFrames 变成单个 DynamicFrame 才能将输出发送到目标位置。

  1. 如果需要,通过选择 添加节点 图标( 
                纯蓝色方框内的白色加号
              )在浮动工具栏中。

  2. 选中新的转换节点后,选择转换 SplitFields 用于 节点类型节点属性 详细信息面板的选项卡。

  3. 节点属性 选项卡,在图表中输入节点的名称。如果尚未选择节点父项,请从 节点父 列表用作转换的输入源。

  4. 选择 转型 选项卡。

  5. 在标题下 拆分字段,选择要放入第一个数据集的属性键。您未选择的键将放在第二个数据集中。

  6. 您可以选择 输出方案 选项卡,查看应用转换后每个框架的外观。

概述 SelectFromCollection 转型

某些转换具有多个数据集作为其输出,而不是单个数据集,例如, SplitFields。的 SelectFromCollection 转换选择一个数据集(DynamicFrame)来自数据集集合(一组 DynamicFrames)。转换的输出是选定的 DynamicFrame.

您必须在使用创建 DynamicFrames,例如:

  • 自定义代码转换

  • SplitFields

如果不添加 SelectFromCollection 在上述转换后将节点转换为作业图表,则作业将收到错误提示。

此转换的父节点必须是返回 DynamicFrames。如果为此转换节点选择父节点,将返回单个 DynamicFrame,例如 加入 转换,您的作业返回错误。

同样,如果您使用 SelectFromCollection 作业图表中的节点作为转换的父节点,需要一个 DynamicFrame 作为输入,您的作业返回错误。


          屏幕截图显示节点详细信息面板的节点属性选项卡上的节点父字段。选定的节点父项为 SplitFields 显示的错误消息为“父节点 SplitFields 输出集合,但节点 DropFields 不接受集合。”

使用 SelectFromCollection 选择保留哪个数据集

使用 SelectFromCollection 转换以转换 DynamicFrames 变成单个 DynamicFrame.

  1. 如果需要,通过选择 添加节点 图标( 
                纯蓝色方框内的白色加号
              )在浮动工具栏中。

  2. 选中新的转换节点后,选择转换 SelectFromCollection 节点类型的 节点属性 详细信息面板的选项卡。

  3. 节点属性 选项卡,在图表中输入节点的名称。如果尚未选择节点父项,请从 节点父 列表用作转换的输入源。

  4. 选择 转型 选项卡。

  5. 在标题下 框架,选择与 DynamicFrame 您要从的集合中选择 DynamicFrames.

    例如,如果此转换的父节点是 SplitFields 转换,在 输出模式 该节点的选项卡,您可以看到每个节点的框架 DynamicFrame。如果您想保留 DynamicFrame 与的框架关联 输出2,您可以选择 1 价值 框架,这是列表中的第二个值。

    未选择的帧不包括在输出中。

  6. 您可以选择 输出方案 选项卡,查看应用转换后框架的外观。

筛选数据集内的键

使用 过滤器 通过基于正则表达式过滤来自所述输入数据集的记录来转换以创建新数据集。不符合筛选器条件的行将从输出中移除。

  • 对于字符串数据类型,您可以筛选键值与指定字符串匹配的行。

  • 对于数值数据类型,您可以使用比较运算符将键值与指定值进行比较来筛选行 <, >, =, !=, <=,和 >=.

如果您指定了多个筛选条件,结果将使用 AND 运算符,但您可以选择 OR 而不是。

  1. 如果需要,通过选择 添加节点 图标( 
                纯蓝色方框内的白色加号
              )在浮动工具栏中。

  2. 选中新的转换节点后,选择转换 过滤器 节点类型的 节点属性 详细信息面板的选项卡。

  3. 节点属性 选项卡,在图表中输入节点的名称。如果尚未选择节点父项,请从 节点父 列表用作转换的输入源。

  4. 选择 转型 选项卡。

  5. 添加筛选器条件:

    • 如果当前没有过滤器,你可以选择 添加新筛选器 按钮,该按钮显示在 过滤器 第节。

    • 在标题的最右侧 过滤器,您可以选择添加图标( 
                    左下角带有加号的矩形。
                  )以添加新的筛选器条件。

    在第一个字段(左侧)中,从数据集中选择属性键名称。在中间字段中,选择比较运算符。在最后一个字段(右侧)中,输入比较值。以下是一些筛选条件的示例:

    • year >= 2018

    • State matches 'CA*'

    在筛选字符串值时,请确保比较值使用与作业属性(Python或Scala)中选择的脚本语言匹配的正则表达式格式。

  6. 根据需要添加其他筛选条件。

  7. 如果您想使用OR来合并筛选器表达式,则选择AND选项( 
                位于打开位置的单选按钮,带有标签和
              将其更改为 OR.

创建自定义转换

如果您需要对数据执行更复杂的转换,或希望将数据属性键添加到数据集,您可以添加 自定义代码 转换为您的作业图形。自定义代码节点允许您输入执行转换的脚本。

使用自定义代码时,您必须使用框架编辑器来指示通过自定义代码对输出所做的更改。编辑框架时,您可以执行以下操作:

  • 添加或删除数据属性键

  • 更改数据属性键的数据类型

  • 更改数据属性键的名称

  • 重构嵌套属性密钥

您必须使用 SelectFromCollection 转换为选择单个 DynamicFrame 在将输出发送到目标位置之前,从自定义转换节点的结果。

使用以下任务将自定义转换节点添加到图表。

添加自定义代码转换节点到图表

  1. 如果需要,通过选择 添加节点 图标( 
                  纯蓝色方框内的白色加号
                )在浮动工具栏中。

  2. 选中转换节点后,选择转换 自定义转换 用于 节点类型节点属性 选项卡。

  3. 节点属性 选项卡,在图表中输入节点的名称。如果尚未选择节点父项,或者如果您希望自定义转换的多个输入项,请从 节点父 列表用作转换的输入源。

输入自定义转换节点的代码

您可以将代码键入或复制到输入字段。作业使用此代码执行数据转换。您可以在Python或Scala中提供代码片段。代码应该使用一个或多个 DynamicFrames 作为输入并返回 DynamicFrames

  1. 在图表中选中自定义转换节点后,选择 转型 选项卡。

  2. 在标题下方的文本输入字段中 代码块,粘贴或输入转换的代码。您使用的代码必须与 作业详细信息 选项卡。

    参照代码中的输入节点时, AWS Glue Studio 将 DynamicFrames 由图表节点根据创建顺序按顺序返回,例如:

    • 数据源节点: DataSource0, DataSource1, DataSource2,以此类推。

    • 转换节点: Transform0, Transform1, Transform2,以此类推。

以下示例显示了要在代码框中输入的代码格式:

Python

以下示例采用第一个 DynamicFrame 接收,将其转换为 DataFrame 以应用本机过滤方法(仅保留超过1000票的记录),然后将其转换回 DynamicFrame 再将其退回。

def FilterHighVoteCounts (glueContext, dfc) -> DynamicFrameCollection: df = dfc.select(list(dfc.keys())[0]).toDF() df_filtered = df.filter(df["vote_count"] > 1000) dyf_filtered = DynamicFrame.fromDF(df_filtered, glueContext, "filter_votes") return(DynamicFrameCollection({"CustomTransform0": dyf_filtered}, glueContext))
Scala

以下示例采用第一个 DynamicFrame 接收,将其转换为 DataFrame 以应用本机过滤方法(仅保留超过1000票的记录),然后将其转换回 DynamicFrame 再将其退回。

object FilterHighVoteCounts { def execute(glueContext : GlueContext, input : Seq[DynamicFrame]) : Seq[DynamicFrame] = { val frame = input(0).toDF() val filtered = DynamicFrame(frame.filter(frame("vote_count") > 1000), glueContext) Seq(filtered) } }

在自定义转换节点中编辑框架

当您使用自定义转换节点时, AWS Glue Studio 无法自动推断由转换创建的输出框架。您使用 编辑架构 描述自定义转换代码所实施的框架更改。

自定义代码节点可以具有任意数量的父节点,每个节点提供 DynamicFrame 作为自定义代码的输入。自定义代码节点返回 DynamicFrames。每 DynamicFrame 用作输入的具有关联的架构。您必须添加描述每个 DynamicFrame 自定义代码节点返回。

  1. 在作业图表中选择了自定义转换节点后,在节点详细信息面板中选择 输出模式 选项卡。

  2. 选择 编辑 以对框架进行更改。

    如果您有嵌套数据属性键,例如数组或对象,您可以使用顶层键名称左侧的树视图图标来展开或折叠子数据属性键的列表。

  3. 在中使用以下操作修改框架 输出模式 页面部分:

    • 要重命名属性键,请将光标放在 属性键的文本框,然后输入新名称。

    • 要更改属性键的数据类型,请使用列表为属性键选择新的数据类型。

    • 要添加新的顶级属性键到框架,请选择 
                      中间带有省略号(...)的矩形
                    按钮,然后选择 添加根键

    • 要添加子属性键到框架,选择添加图标 
                      左下角带有加号的矩形
                    与父键关联。为子键输入一个名称并选择数据类型。

    • 要从框架中移除属性键,请选择删除图标( 
                      垃圾桶的轮廓
                    )至密钥名称最右侧。

  4. 如果您的自定义转换代码使用多个 DyamicFrames,然后选择 
                  中间带有省略号(...)的矩形
                按钮,然后选择 添加输出框架重复. 然后向方案添加新的根键或编辑重复的键。

完成后,请选择 应用 修改输出方案。

配置自定义转换输出

自定义代码转换将返回 DynamicFrames,即使只有一个 DynamicFrame 结果集中。甲 SelectFromCollection 转换将自动添加到作业图表,自定义节点将转换为其父节点。更新此附加转换以指示您要使用的数据集。有关更多信息,请参阅 使用 SelectFromCollection 选择保留哪个数据集

添加其他 SelectFromCollection 转换为作业图表,如果您希望使用其他 DynamicFrame 由自定义代码生成。

配置数据目标节点

数据目标是作业写入转换数据的位置。

数据目标选项概述

您的数据目标(也称为数据接收器)可以是:

  • Amazon S3 – 作业在指定的 Amazon S3 指定的格式的位置。

    如果您为数据目标配置分区列,则作业会将数据集写入 Amazon S3 到目录中。

  • AWS Glue 数据目录 – 作业使用与 Data Catalog 将所述输出数据写入到目标位置。

    您可以手动或使用爬网器创建表格。您也可以使用 AWS CloudFormation 模板,以在 Data Catalog.

    如果作业需要连接才能访问您的目标位置,则连接的名称将与 Data Catalog.

    有关在中创建表的更多信息 Data Catalog,请参阅 在AWS胶水数据目录中定义表AWS Glue 开发人员指南.

编辑数据目标节点

数据目标是作业写入转换数据的位置。

执行以下步骤以配置数据目标节点:

  1. 在图表中选择一个数据目标节点。选择节点时,节点详细信息面板将显示在页面的右侧。

  2. 确保 节点属性 选项卡在节点详细信息面板中被选中,然后输入以下信息:

    • 名称: 输入与作业图表中的节点关联的名称。

    • 节点 类型: 选择数据的目标类型。

      • 如果您选择 上3 对于所述目标,则所述作业将所述数据集写入到 Amazon S3 指定的位置。

      • 如果您选择 AWS胶水数据目录 然后,作业写入到由从 Data Catalog.

    • 节点父: 父节点是图表中提供您要写入到目标位置的输出数据的节点。对于预填充的图表,目标节点应已选择父节点。如果没有显示父节点,则从列表中选择一个父节点。

      目标节点具有单个父节点。

  3. 选择 数据目标属性 选项卡,然后输入目标输出属性。

    1. 如果您选择了 上3 对于目标类型,请输入以下信息。

      • 格式: 从列表中选择一个格式。数据结果的可用格式类型为:

        • JSON: JavaScript 对象符号.

        • CVS(心血管): 逗号分隔值。

        • 艾弗罗: ApacheAvroJSON二进制。

        • 拼音: Apache(Apa 拼音 柱状存储。

        • 胶质拼花粉: 定制Parquet写入器类型,针对 DynamicFrames 作为数据格式。不需要为数据预先计算的框架,GaleParquet可以动态计算和修改框架。

        • 运连辛: Apache优化行列(ORC)格式。

        要了解有关这些格式选项的更多信息,请参阅 AWSGlue中的ETL输入和输出的格式选项AWS Glue 开发人员指南.

      • 压缩类型: 您可以选择使用 gzipbzip2 格式为。默认为无压缩,或 .

      • S3目标位置: 的 Amazon S3 数据输出的存储桶和位置。您可以选择 浏览S3 按钮,查看 Amazon S3 您有权访问的bucket并选择一个作为目标目的地。

      • 分区: 选择要在输出中用作分区键的列。要添加更多分区键,请选择 添加分区键.

    2. 如果您选择了 AWS胶水数据目录 输入以下信息:

      • 数据库: 从列表中选择包含要用作目标的表的数据库。此数据库必须已存在于 Data Catalog.

      • : 从列表中选择用于定义输出数据框架的表。此表必须已存在于 Data Catalog.

        表中的 Data Catalog 由列的名称、数据类型定义、分区信息以及目标数据集的其他元数据组成。您的作业将写入到此表格在 Data Catalog.

        有关在中创建表的更多信息 Data Catalog,请参阅 在AWS胶水数据目录中定义表AWS Glue 开发人员指南.

添加节点到作业图表

您可以向作业添加其他数据源、转换和数据目标,以支持更复杂的ETL操作。

  1. 转到新作业或已保存作业的可视图表编辑器并选择 视觉 选项卡。

  2. 选择 添加节点 图标( 
              纯蓝色方框内的白色加号
            )在浮动工具栏中。

  3. 编辑节点,如以下部分所述:

  4. 如果要在图表中的两个节点之间插入节点,则选择将作为新节点子节点的节点,然后将该子节点的父节点更改为指向新添加的节点。

更改作业图表中节点的父节点

您可以更改节点的父节点,在作业图表中移动节点或更改节点的数据源。

  1. 在作业图表中选择您要修改的节点。

  2. 在节点详细信息面板中,在 节点属性 选项卡,标题下 节点父 删除节点的当前父项。

  3. 从列表中选择一个新的父节点。

  4. 根据需要修改节点的其他属性,以匹配新选择的父节点。

从作业图表删除节点

您可以从图表中移除节点。

  1. 转到新作业或已保存作业的可视图表编辑器并选择 视觉 选项卡。

  2. 选择要移除的节点。

  3. 在图表编辑窗格的浮动工具栏中,选择 移除节点 图标( 
              实心红色方框内的白色叉号(X)
            ).