运行和监控 AWS Glue - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

运行和监控 AWS Glue

您可以自动运行您的 ETL(提取、转换和加载)作业。AWS Glue 还提供了有关爬网程序和作业的指标,您可以监控这些指标。使用所需元数据设置 AWS Glue 数据目录后,AWS Glue 会提供有关环境运行状况的统计数据。您可以基于 cron 使用基于时间的计划自动调用爬网程序和作业。您也可以在基于事件的触发器触发时触发作业。

AWS Glue 的主要目标是提供一种更轻松的方式来将数据从源提取和转换到目标。为了实现此目标,ETL 作业按照以下典型步骤操作 (如下图所示):

  1. 触发器触发,以启动作业运行。此事件可按照定期计划设置,也可以设置为满足某个依赖项。

  2. 作业从源中提取数据。如果需要,连接属性用于访问您的源。

  3. 作业使用您创建的脚本和任何参数的值转换您的数据。该脚本包含转换您数据的 Scala 或 PySpark Python 代码。

  4. 转换后的数据将被加载到数据目标。如果需要,连接属性可用于访问目标。

  5. 系统将收集有关作业运行的统计数据并将其写入 Data Catalog。

下图显示了 ETL 工作流程,其中包含以下五个步骤。


      以 5 个基本步骤显示 AWS Glue 中的提取、转换和加载的数据流。

自动监控工具

监控是保持 AWS Glue 和您的其他 AWS 解决方案的可靠性、可用性和性能的重要方面。AWS 提供了一些监控工具,您可以用来监控 AWS Glue、在出现错误时进行报告并适时自动采取措施:

您可以使用以下自动化监控工具来监控 AWS Glue,并在出现错误时进行报告:

  • Amazon CloudWatch Events 提供近乎实时的系统事件流以描述 AWS 资源的变化。CloudWatch Events 支持自动事件驱动型计算。您可以编写规则,以监控某些事件和在这些事件发生时在其他 AWS 服务中触发自动操作。有关更多信息,请参阅 Amazon CloudWatch Events 用户指南

  • Amazon CloudWatch Logs 使您能够监控、存储和访问来自 Amazon EC2 实例、AWS CloudTrail 和其他来源的日志文件。CloudWatch Logs 可以监控日志文件中的信息,并在达到特定阈值时通知您。您还可以在高持久性存储中检索您的日志数据。有关更多信息,请参阅 Amazon CloudWatch Logs User Guide

  • AWS CloudTrail 捕获由您的 AWS 账户或代表该账户发出的 API 调用和相关事件,并将日志文件传输到您指定的 Amazon S3 存储桶。您可以标识哪些用户和账户调用了 AWS、从中发出调用的源 IP 地址以及调用的发生时间。有关更多信息,请参阅 AWS CloudTrail User Guide