什么是 Amazon Glue? - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

什么是 Amazon Glue?

Amazon Glue 是一项无服务器数据集成服务,可让使用分析功能的用户轻松发现、准备、移动和集成来自多个来源的数据。您可以将其用于分析、机器学习和应用程序开发。它还包括用于编写、运行任务和实施业务工作流程的额外生产力和数据操作工具。

通过使用 Amazon Glue,您可以发现并连接到 70 多个不同的数据来源,并在集中式数据目录中管理您的数据。您可以直观地创建、运行和监控“提取、转换、加载(ETL)”管道,以将数据加载到数据湖中。此外,您可以使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 立即搜索和查询已编目数据。

Amazon Glue 将主要数据集成功能整合到一项服务中。其中包括数据发现、现代 ETL、清理、转换和集中式编目。这也是一项无服务器服务,即无需管理基础设施。通过在一项服务中灵活支持 ETL、ELT 和流式传输之类的所有工作负载,Amazon Glue 可为不同工作负载和类型的用户提供支持。

此外,Amazon Glue 可以轻松地在您的架构中集成数据。它可与 Amazon 分析服务和 Amazon S3 数据湖集成。Amazon Glue 具有集成式界面和任务编写工具,对于从开发人员到业务用户在内的所有用户来说,使用十分方便,还可针对不同的技术技能组合提供定制解决方案。

Amazon Glue 可按需扩展,因此可帮助您专注于能最大限度地提高数据价值的高价值活动。可针对任何数据大小进行扩展,并支持所有数据类型和架构变化。为了提高灵活性并优化成本,Amazon Glue 提供内置的高可用性和即付即用计费模式。

有关定价信息,请参阅 Amazon Glue 定价

Amazon Glue Studio

Amazon Glue Studio 采用图形界面,能让您轻松创建、运行和监控 Amazon Glue 中的数据集成任务。您可以直观地编写数据转换工作流,并在 Amazon Glue 中的基于 Apache Spark 的无服务器 ETL 引擎上无缝运行。有关更多信息,请参阅什么是 Amazon Glue Studio

使用 Amazon Glue Studio,您能够创建并管理收集、转换和清理数据的任务。您还可以使用 Amazon Glue Studio 进行问题排查并编辑任务脚本。

Amazon Glue 功能

Amazon Glue 功能分为三大类:

  • 发现和整理数据

  • 转换、准备和清理数据以进行分析

  • 构建和监控数据管道

发现和整理数据

  • 跨多个数据存储的统一和搜索 – 通过对 Amazon 中的所有数据进行编目,跨多个数据来源和接收器进行存储、索引和搜索。

  • 自动发现数据 – 使用 Amazon Glue 爬网程序自动推断架构信息并将其集成到 Amazon Glue Data Catalog。

  • 管理架构和权限 – 验证和控制对数据库和表的访问。

  • 连接到各种数据来源 – 利用本地和 Amazon 的多个数据来源,使用 Amazon Glue 连接构建您的数据湖,从而了解多个数据源。

转换、准备和清理数据以进行分析

  • 使用拖放界面直观地转换数据 – 在拖放式任务编辑器中定义 ETL 流程,并自动生成用于提取、转换和加载数据的代码。

  • 通过简单的任务计划构建复杂的 ETL 管道 – 按计划、按需或按事件调用 Amazon Glue 任务。

  • 清理和转换传输中流数据 – 支持持续性的数据使用,并在传输过程中对其进行清理和转换。这样便可在数秒内在目标数据存储中完成分析。

  • 通过内置的机器学习去除重复数据和清理数据 – 使用 FindMatches 功能,您无需成为机器学习专家也能轻松清理和准备数据以进行分析。此功能可去除重复项并查找彼此不完全匹配的记录。

  • 内置任务笔记本 – 仅需在 Amazon Glue Studio 中进行最少设置,Amazon Glue Studio 任务笔记本即可提供无服务器笔记本,以便于您快速开始使用。

  • 编辑、调试和测试 ETL 代码 – 通过 Amazon Glue 交互式会话,您能够以交互方式探索和准备数据。您可以使用 IDE 或自己选择的笔记本以交互方式探索数据、对数据进行试验以及处理数据。

  • 定义、检测和修复敏感数据 – Amazon Glue 的敏感数据检测功能可让您定义、识别和处理数据管道和数据湖中的敏感数据。

构建和监控数据管道

  • 根据工作负载自动扩展 – 根据工作负载动态扩展和缩减资源。仅在需要时才为工作人员分配任务。

  • 使用基于事件的触发器自动处理任务 – 使用基于事件的触发器启动爬网程序或 Amazon Glue 任务,并设计相互依赖的任务与爬网程序链。

  • 运行和监控任务 – 运行 Amazon Glue 任务,然后使用自动监控工具 Apache Spark UI、Amazon Glue 任务运行洞察和 Amazon CloudTrail 来监控任务。

  • 定义 ETL 和集成活动的工作流程 – 为多个爬网程序、任务和触发器定义 ETL 和集成活动的工作流程。

Amazon Glue 入门

我们建议您首先阅读以下部分:

访问 Amazon Glue

可以使用以下界面创建、查看和管理您的 Amazon Glue 任务:

  • Amazon Glue 控制台 – 提供 Web 界面供您创建、查看和管理 Amazon Glue 任务。要访问此控制台,请参阅 Amazon Glue 控制台

  • Amazon Glue Studio – 提供图形界面供您直观地创建和编辑 Amazon Glue 任务。有关更多信息,请参阅什么是 Amazon Glue Studio

  • Amazon CLI 参考的 Amazon Glue 部分 – 提供可与 Amazon Glue 配合使用的 Amazon CLI 命令。有关更多信息,请参阅适用于 Amazon Glue 的 Amazon CLI 参考

  • Amazon Glue API – 为开发人员提供完整的 API 参考。有关更多信息,请参阅 Amazon Glue API

Amazon Glue 的用户也使用:

  • Amazon Lake Formation – 此服务是授权层,提供对 Amazon Glue Data Catalog 中的资源访问权的精细控制。

  • Amazon Glue Data Brew – 是一种可视化数据准备工具,让您无需编写任何代码即可清理数据并实现标准化。