Amazon Glue 组件 - Amazon连接词
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Glue 组件

Amazon Glue 提供控制台和 API 操作来设置和管理您的提取、转换和加载 (ETL) 工作负载。您可以通过多个特定于语言的开发工具包和 Amazon Command Line Interface (Amazon CLI) 来使用 API 操作。有关使用Amazon CLI,请参阅Amazon CLI命令参考

Amazon Glue 使用 Amazon Glue Data Catalog来存储有关数据源、转换和目标的元数据。数据目录是 Apache Hive 元存储的简易替代。Amazon Glue Jobs system提供用于为您的数据定义、安排和运行 ETL 操作的托管基础设施。有关 Amazon Glue API 的更多信息,请参阅AWS Glue API

Amazon Glue 控制台

您可以使用 Amazon Glue 控制台来定义和协调您的 ETL 工作流程。该控制台在 Amazon Glue Data Catalog和 Amazon Glue Jobs system中调用多个 API 操作以执行以下任务:

  • 定义 Amazon Glue 对象,如作业、表、爬网程序和连接。

  • 安排爬网程序的运行时间。

  • 为作业触发器定义事件或计划。

  • 搜索和筛选 Amazon Glue 对象的列表。

  • Edit 转换脚本。

Amazon Glue Data Catalog

Amazon Glue Data Catalog是您的持久性元数据存储。它是一项托管服务,可让您在 Amazon Web Services 云中存储、注释和共享元数据,就像在 Apache Hive 元存储中一样。

EACHIAmazon帐户有一个Amazon Glue Data Catalog/Amazon区域。它提供了一个统一的存储库,不同的系统可以在其中存储和查找元数据来跟踪数据孤岛中的数据,并使用该元数据来查询和转换数据。

您可以使用Amazon Identity and Access Management(IAM) 策略控制对的访问权限Amazon Glue Data Catalog。这些策略允许企业中的不同组将数据安全地发布到更广泛的组织,同时保护敏感信息。IAM 策略能让您清晰、一致地定义哪些用户可以访问哪些数据,无论这些数据存储在什么地方。

Data Catalog 还提供全面的审核和监管功能,其中有架构更改跟踪和数据访问控制。您可以审核对数据架构的更改。这有助于确保数据不被不当修改或无意中共享。

有关如何使用 Amazon Glue Data Catalog 的信息,请参阅填充 Amazon Glue Data Catalog。有关如何使用数据目录 API 编程的信息,请参阅。目录 API

以下是其他Amazon服务和使用Amazon Glue Data Catalog:

Amazon Glue 爬网程序和分类器

Amazon Glue 还能让您设置爬网程序,它可以扫描所有类型的存储库中的数据,对其进行分类,从中提取架构信息,并自动在 Amazon Glue Data Catalog中存储元数据。这些区域有:Amazon Glue Data Catalog可用于指导 ETL 操作。

有关如何设置爬网程序和分类器的信息,请参阅定义爬网程序。有关如何使用 Amazon Glue API 编程爬网程序和分类器的信息,请参阅爬网程序和分类器 API

Amazon Glue ETL 操作

通过使用数据目录中的元数据,Amazon Glue可以自动生成具有Amazon Glue扩展,您可以使用和修改这些扩展来执行各种 ETL 操作。例如,您可以提取、清除和转换原始数据,然后将结果存储在不同的存储库中,以便可以对其进行查询和分析。此类脚本可能会将 CSV 文件转换为关系形式并将其保存到 Amazon Redshift 中。

有关如何使用 Amazon Glue ETL 功能的更多信息,请参阅ETL 脚本编程

Amazon Glue 中的流式处理 ETL

Amazon Glue使您能够使用持续运行的作业对流数据执行 ETL 操作。Amazon Glue流式处理 ETL 基于 Apache Spark Streaming 引擎而构建,可以从 Amazon Kinesis Data Streams、Apache Kafka 和 Amazon 管理流提取流。流式处理 ETL 可以清理和转换流数据,并将其加载到 Amazon S3 或 JDBC 数据存储中。在 Amazon Glue 中使用流式处理 ETL 可以处理 IoT 流、点击流和网络日志等事件数据。

如果您知道流数据源的方案,则可以在 “数据目录” 表中指定该方案。如果没有,则可以在流式 ETL 作业中启用架构检测。然后,作业会根据传入的数据自动确定架构。

流式 ETL 作业可以同时使用Amazon Glue内置转换和转换,它们是 Apache Spark Streaming 的原生。有关更多信息,请参阅 。针对流式处理数据仓/数据集的操作在 Apache Spark 网站上。

有关更多信息,请参阅在 Amazon Glue 中添加流式处理 ETL 作业

Amazon Glue 作业系统

Amazon Glue Jobs system提供托管基础设施以协调 ETL 工作流程。您可以在 Amazon Glue 中创建作业,用于自动处理您用于提取、转换数据并将数据传输到不同位置的脚本。作业可以安排和串联,也可以由诸如新数据到达之类的事件触发。

有关如何使用 Amazon Glue Jobs system的更多信息,请参阅运行和监控 Amazon Glue。有关使用 Amazon Glue Jobs system API 编程的信息,请参阅作业 API