

# 构建可视化 ETL 作业
<a name="author-job-glue"></a>

## 使用 Amazon Glue Studio 构建可视化 ETL 作业
<a name="build-etl-jobs-glue-studio"></a>

 Amazon Glue Studio 提供了一个可视化界面，用于在 Amazon Glue 中创建、运行和监控提取/转换/加载（ETL）作业。Amazon Glue 中的作业包含执行提取、转换和加载 (ETL) 工作的业务逻辑。使用 Amazon Glue Studio，您可以直观地编写数据转换工作流，并在 Amazon Glue 的基于 Apache Spark 的无服务器 ETL 引擎上顺畅运行。您可以使用拖放界面创建在各种数据存储和流之间移动和转换数据的作业，而无需学习 Spark 或编写代码。

Amazon Glue 作业将封装连接到源数据的脚本，处理该脚本，然后将其写入数据目标。通常，作业运行提取、转换和加载 (ETL) 脚本。作业可以运行专为 Apache Spark 和 Ray 运行时环境设计的脚本。作业还可以运行通用 Python 脚本（Python shell 作业）。Amazon Glue 触发器可以根据计划或事件或者按需启动作业。您可以监控作业运行以了解运行时指标（例如完成状态、持续时间和开始时间）。

您可以使用 Amazon Glue 生成的脚本，也可以提供您自己的脚本。借助源架构和目标位置或架构，Amazon Glue Studio 代码生成器可以自动创建 Apache Spark API（PySpark）脚本。您可以将此脚本用作起点，并对其进行编辑以满足您的目标。

Amazon Glue 可以用多种数据格式写入输出文件。每种作业类型可能支持不同的输出格式。对于某些数据格式，可以编写常见的压缩格式。

### 在 Amazon 控制台中管理 Amazon Glue 作业
<a name="console-jobs"></a>

要查看现有任务，请登录 Amazon Web Services 管理控制台，然后通过以下网址打开 Amazon Glue 控制台：[https://console.aws.amazon.com/glue/](https://console.amazonaws.cn/glue/)。然后在 ** 中选择 **JobsAmazon Glue (作业) 选项卡。**Jobs** (作业) 列表显示与每个作业关联的脚本的位置、上次修改作业的时间和当前作业书签选项。

 您可以在 ** 控制台的 **ETLAmazon Glue 部分中创建作业。创建新任务时或保存任务后，您可以使用 Amazon Glue Studio 修改您的 ETL 任务。您可以在可视编辑器中编辑节点或以开发人员模式编辑任务脚本，从而执行此操作。您还可以在可视编辑器中添加和删除节点，以创建更复杂的 ETL 任务。

### 在 Amazon Glue Studio 中创建任务的后续步骤
<a name="create-jobs-next"></a>

您使用可视化任务编辑器为任务配置节点。每个节点表示一项操作，例如从源位置读取数据或者为数据应用转换。您添加到任务的每个节点都具有相关属性，提供有关数据位置或转换的信息。

创建和管理任务的后续步骤包括：
+ [在 Amazon Glue Studio 中启动视觉 ETL 作业](edit-nodes-chapter.md)
+ [查看任务脚本](managing-jobs-chapter.md#view-job-script)
+ [修改任务属性](managing-jobs-chapter.md#edit-jobs-properties)
+ [保存任务](managing-jobs-chapter.md#save-job)
+ [启动任务运行](managing-jobs-chapter.md#start-jobs)
+ [查看最近任务运行的信息](managing-jobs-chapter.md#view-job-run-details)
+ [访问任务监控控制面板](view-job-runs.md#monitoring-accessing-dashboard)

## 使用 Amazon SageMaker 构建可视化 ETL 流程
<a name="build-etl-jobs-smus"></a>

 使用 Amazon SageMaker 融通式合作开发工作室工作流程，您可以在 Amazon SageMaker 融通式合作开发工作室中设置和运行一系列任务。Amazon SageMaker 融通式合作开发工作室工作流程使用 Apache Airflow 对数据处理程序进行建模并编排您的 Amazon SageMaker 融通式合作开发工作室代码构件。有关更多信息，请参阅 [Using workflows in Amazon SageMaker Unified Studio](https://docs.amazonaws.cn/sagemaker-unified-studio/latest/userguide/workflow-orchestration.html)。