配置数据目标节点 - AmazonGlue 工作室
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

配置数据目标节点

数据目标是作业写入转换后数据的位置。

数据目标选项概述

您的数据目标(也称为数据接收器)可以是:

  • S3— 作业将数据写入您选择的 Amazon S3 位置的文件中,并以您指定的格式写入。

    如果您为数据目标配置分区列,则作业会根据分区键将数据集写入 Amazon S3 到目录中。

  • Amazon Glue Data Catalog— 作业使用与数据目录中的表关联的信息将输出数据写入目标位置。

    您可以手动创建表,也可以使用 Crawler 创建表。您还可以使用Amazon CloudFormation模板以在数据目录中创建表。

  • 连接器 — 连接器是一段代码,可促进数据存储和Amazon Glue。作业使用连接器和关联的连接将输出数据写入目标位置。您可以订阅 Amazon Web Services Marketplace ,也可以创建自己的自定义连接器。有关更多信息,请参阅 。将连接器添加到AmazonGlue 工作室

您可以选择在任务写入 Amazon S3 数据目标时更新数据目录。当模式或分区发生更改时,此选项不需要 Crawler 更新数据目录,而是使表保持最新状态变得容易。此选项可通过选择性地将新表添加到数据目录、更新表分区以及直接从作业更新表的方案来简化使数据可用于分析的过程。

编辑数据目标节点

数据目标是作业写入转换后数据的位置。

在作业图中添加或配置数据目标节点

  1. (可选)如果需要添加目标节点,请选择目标,然后选择可视化编辑器顶部工具栏上的S3或者Glue 数据目录

    • 如果选择S3,则作业将数据集写入您指定的 Amazon S3 位置中的一个或多个文件。

    • 如果选择Amazon Glue Data Catalog,则作业将写入从数据目录中选择的表所描述的位置。

  2. 在作业图中选择一个数据目标节点。选择节点时,节点详细信息面板将显示在页面的右侧。

  3. 选择节点属性选项卡,然后输入以下信息:

    • 名称:输入要与作业图中节点关联的名称。

    • 节点类型:应该已选择一个值,但您可以根据需要对其进行更改。

    • 节点父级:父节点是作业图中提供要写入目标位置的输出数据的节点。对于预填充的作业图,目标节点应该已经选择了父节点。如果没有显示父节点,则从列表中选择父节点。

      目标节点具有单个父节点。

  4. 配置数据目标属性信息。有关详细信息,请参阅以下章节:

  5. (可选)配置数据目标节点属性后,您可以通过选择输出架构选项卡中的节点详细信息面板。首次为任务中的任何节点选择此选项卡时,系统会提示您提供 IAM 角色以访问数据。如果您尚未在Job 详细信息选项卡上,系统会提示您在此处输入 IAM 角色。

将 Amazon S3 用于数据目标

对于除 Amazon S3 和连接器之外的所有数据源,表必须存在于Amazon Glue Data Catalog作为您选择的源类型。AmazonGlue 工作室不会创建数据目录表。

配置写入 Amazon S3 的数据目标节点

  1. 转到新作业或已保存作业的可视编辑器。

  2. 在作业图中选择一个数据源节点。

  3. 选择数据源属性选项卡,然后输入以下信息:

    • 格式:从列表中选择一种格式。数据结果的可用格式类型包括:

      • JSON: JavaScript 对象表示法。

      • CSV:逗号分隔值。

      • Avro:Apache Avro JSON 二进制文件。

      • Parquet:Apache Parquet 列式存储。

      • Glue 实木:一个自定义 Parquet 编写器类型,该类型已作为DynamicFrames作为数据格式。它不需要数据预先计算的架构,而是动态计算和修改架构。

      • ORC:Apache 优化行列 (ORC) 格式。

      要了解有关这些格式选项的更多信息,请参阅中的 ETL 输入和输出的格式选项Amazon Glue中的Amazon Glue开发人员指南

    • 压缩类型:可选择使用选择性地使用gzip或者bzip2格式的日期和时间。默认值为无压缩,或

    • S3 目标位置:Amazon S3 存储桶和数据输出的位置。您可以选择浏览 S3按钮查看您有权访问的 Amazon S3 存储桶,并选择一个作为目标目标。

    • 数据目录更新选项

      • 请勿更新数据目录:(默认)如果不希望作业更新数据目录(即使架构更改或添加了新分区),请选择此选项。

      • 在数据目录中创建表并在后续运行时,更新架构并添加新分区:如果选择此选项,作业将在第一次运行作业时在数据目录中创建表。在随后的作业运行时,如果架构发生更改或添加了新分区,作业将更新 “数据目录” 表。

        还必须从 “数据目录” 中选择数据库并输入表名。

      • 在数据目录和后续运行时创建表,保留现有架构并添加新分区:如果选择此选项,作业将在第一次运行作业时在数据目录中创建表。在后续作业运行时,作业仅更新 “数据目录” 表以添加新分区。

        还必须从 “数据目录” 中选择数据库并输入表名。

      • 分区键:选择要在输出中用作分区键的列。要添加更多分区键,请选择添加分区键

使用数据目录表作为数据目标

对于除 Amazon S3 和连接器之外的所有数据源,表必须存在于Amazon Glue Data Catalog作为您选择的目标类型。AmazonGlue 工作室不会创建数据目录表。

为使用数据目录表的目标配置数据属性

  1. 转到新作业或已保存作业的可视编辑器。

  2. 在作业图中选择一个数据目标节点。

  3. 选择数据目标属性选项卡,然后输入以下信息:

    • 数据库:从列表中选择包含要用作目标的表的数据库。此数据库必须已存在于数据目录中。

    • :从列表中选择定义输出数据方案的表。此表必须已存在于数据目录中。

      数据目录中的表包含列的名称、数据类型定义、分区信息以及有关目标数据集的其他元数据。您的作业写入数据目录中此表描述的位置。

      有关在数据目录中创建表的更多信息,请参阅在数据目录中定义表中的Amazon Glue开发人员指南

    • 数据目录更新选项

      • 请勿更改表定义:(默认)如果不希望作业更新数据目录(即使架构更改或添加了新分区),请选择此选项。

      • 更新架构并添加新分区:如果选择此选项,如果架构发生更改或添加了新分区,作业将更新 “数据目录” 表。

      • 保留现有架构并添加新分区:如果选择此选项,作业将仅更新 “数据目录” 表以添加新分区。

      • 分区键:选择要在输出中用作分区键的列。要添加更多分区键,请选择添加分区键

为数据目标使用连接器

如果选择连接器节点类型,请遵循以下说明:使用自定义连接器创作作业以完成数据目标属性的配置。