AWS Glue Components - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

AWS Glue Components

AWS Glue 提供控制台和 API 操作来设置和管理您的提取、转换和加载 (ETL) 工作负载。您可以通过多个特定于语言的开发工具包和 AWS Command Line Interface (AWS CLI) 来使用 API 操作。有关使用 AWS CLI 的信息,请参阅 AWS CLI Command Reference

AWS Glue 使用 AWS Glue 数据目录来存储有关数据源、转换和目标的元数据。Data Catalog是 Apache Hive 元存储的简易替代。AWS Glue Jobs system提供用于为您的数据定义、安排和运行 ETL 操作的托管基础设施。有关 AWS Glue API 的更多信息,请参阅AWS Glue API

AWS Glue Console

您可以使用 AWS Glue 控制台来定义和协调您的 ETL 工作流程。该控制台在 AWS Glue 数据目录和 AWS Glue Jobs system中调用多个 API 操作以执行以下任务:

  • Define AWS Glue objects such as jobs, tables, crawlers, and connections.

  • Schedule when crawlers run.

  • Define events or schedules for job triggers.

  • Search and filter lists of AWS Glue objects.

  • Edit transformation scripts.

AWS Glue 数据目录

AWS Glue 数据目录是您的持久性元数据存储。它是一项托管服务,可让您在 AWS 云中存储、注释和共享元数据,就像在 Apache Hive 元存储中一样。

每个 AWS 账户在每个 AWS 区域有一个 AWS Glue 数据目录 。它提供了一个统一的存储库,不同的系统可以在其中存储和查找元数据来跟踪数据孤岛中的数据,并使用该元数据来查询和转换数据。

您可以使用 AWS Identity and Access Management (IAM) 策略来控制对 AWS Glue 数据目录所管理的数据源的访问。这些策略允许企业中的不同组将数据安全地发布到更广泛的组织,同时保护敏感信息。IAM 策略能让您清晰、一致地定义哪些用户可以访问哪些数据,无论这些数据存储在什么地方。

TheThethe Data Catalog 还提供全面的审计和管理功能,包括架构变更跟踪和数据访问控制。您可以审核对数据框架的更改。这有助于确保数据不会被不当修改或无意中共享。

有关如何使用 AWS Glue 数据目录 的信息,请参阅填充 AWS Glue 数据目录。有关如何使用 Data Catalog API 编程的信息,请参阅目录 API

以下是其他 AWS 使用 AWS Glue 数据目录:

AWS Glue Crawlers and Classifiers

AWS Glue 还能让您设置爬网程序,它可以扫描所有类型的存储库中的数据,对其进行分类,从中提取架构信息,并自动在 AWS Glue 数据目录中存储元数据。它可用于指导 ETL 操作。

有关如何设置爬网程序和分类器的信息,请参阅定义爬网程序。有关如何使用 AWS Glue API 编程爬网程序和分类器的信息,请参阅爬网程序和分类器 API

AWS Glue ETL Operations

通过使用Data Catalog中的元数据,AWS Glue 可以自动生成具有 AWS Glue 扩展的 Scala 或 PySpark(用于 Apache Spark 的 Python API)脚本,您可以使用和修改它来执行各种 ETL 操作。例如,您可以提取、清除和转换原始数据,然后将结果存储在不同的存储库中,以便可以对其进行查询和分析。此类脚本可能会将 CSV 文件转换为关系形式并将其保存到 Amazon Redshift 中。

有关如何使用 AWS Glue ETL 功能的更多信息,请参阅ETL 脚本编程

Streaming ETL in AWS Glue

AWS Glue 允许您使用持续运行的作业对流数据执行ETL操作。 AWS Glue 流媒体ETL建立在ApacheSpark结构化流媒体引擎上, Amazon Kinesis Data Streams 和ApacheKafka Amazon Managed Streaming for Apache Kafka. 流式处理 ETL 可以清理和转换流数据,并将其加载到 Amazon S3 或 JDBC 数据存储中。在 AWS Glue 中使用流式处理 ETL 可以处理 IoT 流、点击流和网络日志等事件数据。

有关更多信息,请参阅 在 AWS Glue 中添加流式处理 ETL 作业。)

The AWS Glue Jobs System

AWS Glue Jobs system提供托管基础设施以协调 ETL 工作流程。您可以在 AWS Glue 中创建作业,用于自动处理您用于提取、转换数据并将数据传输到不同位置的脚本。作业可以安排和串联,也可以由诸如新数据到达之类的事件触发。

有关如何使用 AWS Glue Jobs system的更多信息,请参阅运行和监控 AWS Glue。有关使用 AWS Glue Jobs system API 编程的信息,请参阅作业 API