什么是 Amazon Glue? - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

什么是 Amazon Glue?

Amazon Glue 是一项无服务器数据集成服务,可让使用分析功能的用户轻松发现、准备、移动和集成来自多个来源的数据。您可以将其用于分析、机器学习和应用程序开发。它还包括用于编写、运行任务和实施业务工作流程的额外生产力和数据操作工具。

通过使用 Amazon Glue,您可以发现并连接到 70 多个不同的数据来源,并在集中式数据目录中管理您的数据。您可以直观地创建、运行和监控“提取、转换、加载(ETL)”管道,以将数据加载到数据湖中。此外,您可以使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 立即搜索和查询已编目数据。

Amazon Glue 将主要数据集成功能整合到一项服务中。其中包括数据发现、现代 ETL、清理、转换和集中式编目。这也是一项无服务器服务,即无需管理基础设施。通过在一项服务中灵活支持 ETL、ELT 和流式传输之类的所有工作负载,Amazon Glue 可为不同工作负载和类型的用户提供支持。

此外,Amazon Glue 可以轻松地在您的架构中集成数据。它与 Amazon 分析服务和 Amazon S3 数据湖集成。 Amazon Glue具有集成界面和作业创作工具,所有用户(从开发人员到业务用户)都易于使用,并针对各种技术技能组合提供量身定制的解决方案。

Amazon Glue 可按需扩展,因此可帮助您专注于能最大限度地提高数据价值的高价值活动。可针对任何数据大小进行扩展,并支持所有数据类型和架构变化。为了提高敏捷性并优化成本,Amazon Glue提供了内置的高可用性和 pay-as-you-go 计费功能。

有关定价信息,请参阅 Amazon Glue 定价

Amazon Glue Studio

Amazon Glue Studio 采用图形界面,能让您轻松创建、运行和监控 Amazon Glue 中的数据集成任务。您可以直观地编写数据转换工作流,并在 Amazon Glue 中的基于 Apache Spark 的无服务器 ETL 引擎上无缝运行。

使用 Amazon Glue Studio,您能够创建并管理收集、转换和清理数据的任务。您还可以使用 Amazon Glue Studio 进行问题排查并编辑任务脚本。

Amazon Glue 功能

Amazon Glue 功能分为三大类:

  • 发现和整理数据

  • 转换、准备和清理数据以进行分析

  • 构建和监控数据管道

发现和整理数据

  • 统一并跨多个数据存储进行搜索 — 通过对所有数据进行编目,跨多个数据源和接收器进行存储、索引和搜索。 Amazon

  • 自动发现数据 – 使用 Amazon Glue 爬网程序自动推断架构信息并将其集成到 Amazon Glue Data Catalog。

  • 管理架构和权限 – 验证和控制对数据库和表的访问。

  • 连接到各种各样的数据源 — 利用内部和内部的多个数据源 Amazon,使用Amazon Glue连接来构建您的数据湖。

转换、准备和清理数据以进行分析

  • 使用 drag-and-drop界面可视化转换数据 — 在 drag-and-drop作业编辑器中定义您的 ETL 流程,并自动生成用于提取、转换和加载数据的代码。

  • 通过简单的任务计划构建复杂的 ETL 管道 – 按计划、按需或按事件调用 Amazon Glue 任务。

  • 清理和转换传输中流数据 – 支持持续性的数据使用,并在传输过程中对其进行清理和转换。这样便可在数秒内在目标数据存储中完成分析。

  • 通过内置的机器学习去除重复数据和清理数据 – 使用 FindMatches 功能,您无需成为机器学习专家也能轻松清理和准备数据以进行分析。此功能可去除重复项并查找彼此不完全匹配的记录。

  • 内置任务笔记本 – 仅需在 Amazon Glue 中进行最少设置,Amazon Glue 任务笔记本即可提供无服务器笔记本,以便于您快速开始使用。

  • 编辑、调试和测试 ETL 代码 – 通过 Amazon Glue 交互式会话,您能够以交互方式探索和准备数据。您可以使用 IDE 或自己选择的笔记本以交互方式探索数据、对数据进行试验以及处理数据。

  • 定义、检测和修复敏感数据 – Amazon Glue 的敏感数据检测功能可让您定义、识别和处理数据管道和数据湖中的敏感数据。

构建和监控数据管道

  • 根据工作负载自动扩展 – 根据工作负载动态扩展和缩减资源。仅在需要时才为工作人员分配任务。

  • 使用基于事件的触发器自动处理任务 – 使用基于事件的触发器启动爬网程序或 Amazon Glue 任务,并设计相互依赖的任务与爬网程序链。

  • 运行和监控作业 - 使用您选择的引擎(Spark 或 Ray)运行 Amazon Glue 作业。使用自动监控工具 Amazon Glue 作业运行见解和 Amazon CloudTrail对其进行监控。使用 Apache Spark 用户界面改善对 Spark 支持的作业的监控。

  • 定义 ETL 和集成活动的工作流程 – 为多个爬网程序、任务和触发器定义 ETL 和集成活动的工作流程。

了解以下领域的创新 Amazon Glue

了解最新的创新,听听客户 Amazon Glue 如何使用它在 Amazon Glue 整个组织中实现自助式数据准备。

了解客户如何在传统设置 Amazon Glue 之外进行扩展,以及他们如何 Amazon Glue 针对作业监控和性能进行配置。

开始使用 Amazon Glue

我们建议您首先阅读以下部分:

访问 Amazon Glue

可以使用以下界面创建、查看和管理您的 Amazon Glue 任务:

  • Amazon Glue 控制台 – 提供 Web 界面供您创建、查看和管理 Amazon Glue 任务。要访问此控制台,请参阅 Amazon Glue

  • Amazon Glue Studio – 提供图形界面供您直观地创建和编辑 Amazon Glue 任务。有关更多信息,请参阅什么是 Amazon Glue Studio

  • Amazon Glue“参 Amazon CLI 考” 部分 — 提供可以与一起使用的 Amazon CLI 命令Amazon Glue。有关更多信息,请参阅适用于 Amazon Glue 的Amazon CLI 参考

  • Amazon Glue API – 为开发人员提供完整的 API 参考。有关更多信息,请参阅 Amazon Glue API

Amazon Glue 的用户也使用:

  • Amazon Lake Formation – 此服务是授权层,提供对 Amazon Glue Data Catalog 中的资源访问权的精细控制。

  • Amazon GlueAmazon Glue DataBrew— 一种可视化数据准备工具,无需编写任何代码即可使用它来清理和标准化数据。