运行和监控 Amazon Glue - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

运行和监控 Amazon Glue

您可以自动运行您的 ETL(提取、转换和加载)作业。Amazon Glue 还提供了有关爬网程序和作业的指标,您可以监控这些指标。使用所需元数据设置 Amazon Glue Data Catalog后,Amazon Glue 会提供有关环境运行状况的统计数据。您可以基于 cron 使用基于时间的计划自动调用爬网程序和作业。您也可以在基于事件的触发器触发时触发作业。

Amazon Glue 的主要目标是提供一种更轻松的方式来将数据从源提取和转换到目标。为了实现此目标,ETL 作业按照以下典型步骤操作 (如下图所示):

  1. 触发器触发,以启动作业运行。此事件可按照定期计划设置,也可以设置为满足某个依赖项。

  2. 作业从源中提取数据。如果需要,连接属性用于访问您的源。

  3. 作业使用您创建的脚本和任何参数的值转换您的数据。该脚本包含转换您数据的 Scala 或 PySpark Python 代码。

  4. 转换后的数据将被加载到数据目标。如果需要,连接属性可用于访问目标。

  5. 系统将收集有关任务运行的统计数据并将其写入数据目录。

下图显示了 ETL 工作流程,其中包含以下五个步骤。


      以 5 个基本步骤显示 Amazon Glue 中的提取、转换和加载的数据流。

自动监控工具

监控是保持 Amazon Glue 和您的其他 Amazon 解决方案的可靠性、可用性和性能的重要方面。Amazon 提供了一些监控工具,您可以用来监控 Amazon Glue、在出现错误时进行报告并适时自动采取措施:

您可以使用以下自动化监控工具来监控 Amazon Glue 并在出现错误时报告:

  • Amazon CloudWatch Events 提供几乎实时的系统事件流,这些事件描述 Amazon 资源的更改。CloudWatch Events 支持自动事件驱动型计算。您可以编写规则,以监控某些事件和在这些事件发生时在其他 Amazon 服务中触发自动操作。有关更多信息,请参阅 Amazon CloudWatch Events 用户指南

  • Amazon CloudWatch Logs 使您能够监控、存储和访问来自 Amazon EC2 实例、Amazon CloudTrail 和其他来源的日志文件。CloudWatch Logs 可以监控日志文件中的信息,并在达到特定阈值时通知您。您还可以在高持久性存储中检索您的日志数据。有关更多信息,请参阅 Amazon CloudWatch Logs 用户指南

  • Amazon CloudTrail 捕获由您的 Amazon 账户或代表该账户发出的 API 调用和相关事件,并将日志文件传输到您指定的 Amazon S3 存储桶。您可以标识哪些用户和账户调用了 Amazon、从中发出调用的源 IP 地址以及调用的发生时间。有关更多信息,请参阅 Amazon CloudTrail 用户指南