使用 Amazon Glue Studio 构建可视化 ETL 作业
Amazon Glue 作业将封装连接到源数据的脚本,处理该脚本,然后将其写入数据目标。通常,作业运行提取、转换和加载 (ETL) 脚本。作业可以运行专为 Apache Spark 和 Ray 运行时环境设计的脚本。作业还可以运行通用 Python 脚本(Python shell 作业)。Amazon Glue 触发器 可以根据计划或事件或者按需启动作业。您可以监控作业运行以了解运行时指标(例如完成状态、持续时间和开始时间)。
您可以使用 Amazon Glue 生成的脚本,也可以提供您自己的脚本。借助源架构和目标位置或架构,Amazon Glue Studio 代码生成器可以自动创建 Apache Spark API(PySpark)脚本。您可以将此脚本用作起点,并对其进行编辑以满足您的目标。
Amazon Glue 可以用多种数据格式写入输出文件。每种作业类型可能支持不同的输出格式。对于某些数据格式,可以编写常见的压缩格式。
登录到 Amazon Glue 控制台
Amazon Glue 中的作业包含执行提取、转换和加载 (ETL) 工作的业务逻辑。您可以在 控制台的 ETLAmazon Glue 部分中创建作业。
要查看现有任务,请登录 Amazon Web Services Management Console,然后通过以下网址打开 Amazon Glue 控制台:https://console.aws.amazon.com/glue/
创建新任务时或保存任务后,您可以使用 Amazon Glue Studio 修改您的 ETL 任务。您可以在可视编辑器中编辑节点或以开发人员模式编辑任务脚本,从而执行此操作。您还可以在可视编辑器中添加和删除节点,以创建更复杂的 ETL 任务。
在 Amazon Glue Studio 中创建任务的后续步骤
您使用可视化任务编辑器为任务配置节点。每个节点表示一项操作,例如从源位置读取数据或者为数据应用转换。您添加到任务的每个节点都具有相关属性,提供有关数据位置或转换的信息。
创建和管理任务的后续步骤包括: