在 Amazon Glue 控制台上处理作业
Amazon Glue 中的作业包含执行提取、转换和加载 (ETL) 工作的业务逻辑。您可以在 控制台的 ETLAmazon Glue 部分中创建作业。
要查看现有任务,请登录 Amazon Web Services Management Console,然后通过以下网址打开 Amazon Glue 控制台:https://console.aws.amazon.com/glue/
从 Jobs (作业) 列表中,可以执行下列操作:
-
要启动现有作业,请选择 Action (操作),然后选择 Run job (运行作业)。
-
要停止
Running
或Starting
作业,请选择 Action (操作),然后选择 Stop job run (停止作业运行)。 -
要添加启动作业的触发器,请依次选择 Action (操作) 和 Choose job triggers (选择作业触发器)。
-
要修改现有作业,请选择 Action (操作),然后选择 Edit job (编辑作业) 或 Delete (删除)。
-
要更改与作业关联的脚本,请依次选择 Action (操作) 和 Edit script (编辑脚本)。
-
要重置 Amazon Glue 存储的有关您的作业的状态信息,请依次选择 Action (操作) 和 Reset job bookmark (重置作业书签)。
-
要创建具有此作业的属性的开发终端节点,请依次选择 Action (操作) 和 Create development endpoint (创建开发终端节点)。
使用控制台添加新作业
-
打开 Amazon Glue 控制台并选择 Jobs (作业) 选项卡。
-
选择 Add job (添加作业),然后按照 Add job (添加作业) 向导中的说明进行操作。
如果您决定让 Amazon Glue 为您的作业生成脚本,则必须指定作业属性、数据源和数据目标,并验证源列到目标列的架构映射。您添加代码以执行 ETL 工作需要从生成的脚本开始。验证脚本中的代码并进行修改以满足您的业务需求。
注意 要获取使用生成的脚本添加作业的分步指导,请参阅控制台中的 Add job (添加作业) 教程。
(可选)您可以向作业添加安全配置来指定静态加密选项。
如果您提供或创作脚本,您的作业将定义源、目标和转换。但您必须在作业中指定脚本所需的任何连接。有关创建您自己的脚本的信息,请参阅提供您自己的自定义脚本。
作业代入您在创建它时指定的 IAM 角色的权限。此 IAM 角色必须有权从您的数据源中提取数据并将其写入您的目标。Amazon Glue 控制台仅列出已为 Amazon Glue 委托人服务附加信任策略的 IAM 角色。有关为 Amazon Glue 提供角色的更多信息,请参阅基于身份的策略。
如果任务读取经过 Amazon KMS 加密的 Amazon Simple Storage Service(Amazon S3)数据,则 IAM 角色必须具有 KMS 密钥的解密权限。有关更多信息,请参阅步骤 2:为 Amazon Glue 创建 IAM 角色。
查看纠正 Amazon Glue 中的错误来了解作业运行时存在的已知问题。
要了解每个作业所需的属性,请参阅定义 Spark 作业的作业属性。
要获取使用生成的脚本添加作业的分步指导,请参阅 Amazon Glue 控制台中的 Add job (添加任务) 教程。
查看任务详细信息
要查看作业的详细信息,请在 Jobs (作业) 列表中选择作业,然后查看以下选项卡上的信息:
-
历史记录
-
详细信息
-
Script
-
指标
历史记录
History (历史记录) 选项卡显示您的作业运行历史记录以及作业在过去有多么成功。对于每个作业,运行指标包括:
-
Run ID (运行 ID) 是 Amazon Glue 为此作业的每次运行创建的标识符。
-
Retry attempt (重试尝试) 显示要求 Amazon Glue 自动重试的作业的尝试次数。
-
Run status (运行状态) 显示列出的每次运行的成功状态,其中最新运行位于顶部。如果作业为
Running
或Starting
,您可以选择此列中的操作图标来停止它。 -
Error (错误) 在运行不成功时显示错误消息的详细信息。
-
Logs (日志) 链接到写入此作业运行的
stdout
的日志。Logs (日志) 链接会将您带到 Amazon CloudWatch Logs,您可以在其中查看与在 Amazon Glue Data Catalog 中创建的表和遇到的任何错误相关的所有详细信息。您可以在 CloudWatch 控制台中管理日志保留期。默认日志保留为
Never Expire
。有关更多如何更改保留期的信息,请参阅《Amazon CloudWatch Logs 用户指南》中的更改 CloudWatch Logs 中的日志数据留存。 -
Error logs (错误日志) 链接到写入此作业运行的
stderr
的日志。此链接会将您带到 CloudWatch Logs,您可以在其中查看有关遇到的任何错误的详细信息。您可以在 CloudWatch 控制台中管理日志保留期。默认日志保留为
Never Expire
。有关更多如何更改保留期的信息,请参阅 Amazon CloudWatch Logs 用户指南中的更改 CloudWatch Logs 中的日志数据留存。 -
Execution time (执行时间) 显示作业运行消耗资源的时间长度。计算长度时从作业运行开始消耗资源时算起,直至完成。
-
Timeout (超时) 显示作业运行在停止并进入超时状态之前可以消耗资源的最长执行时间。
-
Delay (延迟) 显示发送作业延迟通知之前的阈值。当任务运行执行时间达到此阈值时,Amazon Glue 将向 CloudWatch Events 发送通知(“Glue 任务运行状态”)。
-
Triggered by (触发者) 显示触发以启动此作业运行的触发器。
-
Start time (开始时间) 显示作业启动的日期和时间 (本地时间)。
-
End time (结束时间) 显示作业结束的日期和时间 (本地时间)。
对于特定的作业运行,您可以 View run metrics (查看运行指标),这将显示所选作业运行的指标图表。有关如何启用指标和解释图表的更多信息,请参阅作业监控和调试。
详细信息
Details (详细信息) 选项卡包含作业的属性。它显示有关作业定义的详细信息,还列出了可启动此作业的触发器。每次列表中的触发器之一触发时,都会启动此作业。对于触发器列表,详细信息包括:
-
Trigger name (触发器名称) 显示在触发时会启动此作业的触发器的名称。
-
Trigger type (触发器类型) 列出启动此作业的触发器的类型。
-
Trigger status (触发器状态) 显示触发器是已创建、已激活还是已停用。
-
Trigger parameters (触发器参数) 显示定义触发器何时触发的参数。
-
Jobs to trigger (要触发的作业) 显示此触发器触发时启动的作业列表。
Details (详细信息) 选项卡不包含源和目标信息。检查脚本以查看源和目标详细信息。
Script
Script (脚本) 选项卡显示作业启动时运行的脚本。您可以从此选项卡调用 Edit script (编辑脚本) 视图。有关 Amazon Glue 控制台中的脚本编辑器的更多信息,请参阅作业(旧版)。有关脚本中调用的函数的信息,请参阅在 PySpark 中编写 Amazon Glue ETL 脚本。
指标
Metrics (指标) 选项卡显示启用任务运行和分析时收集的指标。显示了以下图表:
ETL 数据移动
内存配置文件:驱动程序和执行程序
选择 View additional metrics (查看其他指标) 显示以下图表:
ETL 数据移动
内存配置文件:驱动程序和执行程序
执行程序之间的数据随机排序
CPU 负载:驱动程序和执行程序
作业执行:活动执行程序、已完成的阶段和需求最大的执行程序
如果已启用任务以收集指标,系统则会将这些图表的数据推送到 CloudWatch 指标。有关如何启用指标和解释图表的更多信息,请参阅作业监控和调试。
例 ETL 数据移动图表
ETL 数据移动图表会显示以下指标:
所有执行程序从 Amazon S3 读取的字节数 – glue.ALL.s3.filesystem.read_bytes
-
所有执行程序写入 Amazon S3 的字节数 – glue.ALL.s3.filesystem.write_bytes

例 内存配置文件图表
内存配置文件图表会显示以下指标:
驱动程序的 JVM 堆用于此驱动程序的内存量(比例:0-1),用 executorId 标识的执行程序,或所有执行程序 –

例 执行程序之间的数据随机排序图表
执行程序之间的数据随机排序图表显示了以下指标:
所有执行程序用于在它们之间对数据进行随机排序所读取的字节数 -glue.driver.aggregate.shuffleLocalBytesRead
-
所有执行程序用于在它们之间对数据进行随机排序所写入的字节数 -glue.driver.aggregate.shuffleBytesWritten

例 CPU 负载图表
CPU 负载图表显示以下指标:
驱动程序使用的 CPU 系统负载量(比例:0-1),用 executorId 标识的执行程序,或所有执行程序 –

例 作业执行图表
作业执行图表显示以下指标:
