使用 Amazon Glue Studio 构建可视化 ETL 作业 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon Glue Studio 构建可视化 ETL 作业

Amazon Glue 作业将封装连接到源数据的脚本,处理该脚本,然后将其写入数据目标。通常,作业运行提取、转换和加载 (ETL) 脚本。作业可以运行专为 Apache Spark 和 Ray 运行时环境设计的脚本。作业还可以运行通用 Python 脚本(Python shell 作业)。Amazon Glue 触发器 可以根据计划或事件或者按需启动作业。您可以监控作业运行以了解运行时指标(例如完成状态、持续时间和开始时间)。

您可以使用 Amazon Glue 生成的脚本,也可以提供您自己的脚本。使用源架构和目标位置或架构,Amazon Glue Studio代码生成器可以自动创建 Apache Spark API (PySpark) 脚本。您可以将此脚本用作起点,并对其进行编辑以满足您的目标。

Amazon Glue 可以用多种数据格式写入输出文件。每种作业类型可能支持不同的输出格式。对于某些数据格式,可以编写常见的压缩格式。

登录到 Amazon Glue 控制台

中的作业 Amazon Glue 由执行提取、转换和加载 (ETL) 工作的业务逻辑组成。您可以在 控制台的 ETLAmazon Glue 部分中创建作业。

要查看现有职位,请登录 Amazon Web Services Management Console 并打开Amazon Glue控制台,网址为 https://console.aws.amazon.com/glue/。然后在 中选择 JobsAmazon Glue (作业) 选项卡。Jobs (作业) 列表显示与每个作业关联的脚本的位置、上次修改作业的时间和当前作业书签选项。

创建新任务时或保存任务后,您可以使用 Amazon Glue Studio 修改您的 ETL 任务。您可以在可视编辑器中编辑节点或以开发人员模式编辑任务脚本,从而执行此操作。您还可以在可视编辑器中添加和删除节点,以创建更复杂的 ETL 任务。

在 Amazon Glue Studio 中创建任务的后续步骤

您使用可视化任务编辑器为任务配置节点。每个节点表示一项操作,例如从源位置读取数据或者为数据应用转换。您添加到任务的每个节点都具有相关属性,提供有关数据位置或转换的信息。

创建和管理任务的后续步骤包括: