

# 什么是 Amazon Glue？
<a name="what-is-glue"></a>

 Amazon Glue 是一项无服务器数据集成服务，可让使用分析功能的用户轻松发现、准备、移动和集成来自多个来源的数据。您可以将其用于分析、机器学习和应用程序开发。它还包括用于编写、运行任务和实施业务工作流程的额外生产力和数据操作工具。

 通过使用 Amazon Glue，您可以发现并连接到 70 多个不同的数据来源，并在集中式数据目录中管理您的数据。您可以直观地创建、运行和监控“提取、转换、加载（ETL）”管道，以将数据加载到数据湖中。此外，您可以使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 立即搜索和查询已编目数据。

 Amazon Glue 将主要数据集成功能整合到一项服务中。其中包括数据发现、现代 ETL、清理、转换和集中式编目。这也是一项无服务器服务，即无需管理基础设施。通过在一项服务中灵活支持 ETL、ELT 和流式传输之类的所有工作负载，Amazon Glue 可为不同工作负载和类型的用户提供支持。

 此外，Amazon Glue 可以轻松地在您的架构中集成数据。它可与 Amazon 分析服务和 Amazon S3 数据湖集成。Amazon Glue 具有集成式界面和任务编写工具，对于从开发人员到业务用户在内的所有用户来说，使用十分方便，还可针对不同的技术技能组合提供定制解决方案。

 Amazon Glue 可按需扩展，因此可帮助您专注于能最大限度地提高数据价值的高价值活动。可针对任何数据大小进行扩展，并支持所有数据类型和架构变化。为了提高灵活性并优化成本，Amazon Glue 提供内置的高可用性和即付即用计费模式。

有关定价信息，请参阅 [Amazon Glue 定价](https://www.amazonaws.cn/glue/pricing)。

 **Amazon Glue Studio** 

 Amazon Glue Studio 采用图形界面，能让您轻松创建、运行和监控 Amazon Glue 中的数据集成任务。您可以直观地编写数据转换工作流，并在 Amazon Glue 中的基于 Apache Spark 的无服务器 ETL 引擎上无缝运行。

使用 Amazon Glue Studio，您能够创建并管理收集、转换和清理数据的任务。您还可以使用 Amazon Glue Studio 进行问题排查并编辑任务脚本。

**Topics**
+ [Amazon Glue 特征](#glue-features-summary)
+ [了解 Amazon Glue 中的创新](#innovations-in-glue)
+ [Amazon Glue 入门](#getting-started-with-glue)
+ [访问 Amazon Glue](#accessing-aws-glue)
+ [相关服务](#what-is-glue-related-services)
+ [Amazon Glue for Ray 终止支持](awsglue-ray-jobs-availability-change.md)

## Amazon Glue 特征
<a name="glue-features-summary"></a>

Amazon Glue 功能分为三大类：
+  发现和整理数据 
+  转换、准备和清理数据以进行分析 
+  构建和监控数据管道 

 **发现和整理数据** 
+  **跨多个数据存储的统一和搜索** – 通过对 Amazon 中的所有数据进行编目，跨多个数据来源和接收器进行存储、索引和搜索。
+  **自动发现数据** – 使用 Amazon Glue 爬网程序自动推断架构信息并将其集成到 Amazon Glue Data Catalog。
+  **管理架构和权限** – 验证和控制对数据库和表的访问。
+  **连接到各种数据来源** – 利用本地和 Amazon 的多个数据来源，使用 Amazon Glue 连接构建您的数据湖，从而了解多个数据源。

 **转换、准备和清理数据以进行分析** 
+  **使用作业画布界面直观地转换数据** – 在可视任务编辑器中定义 ETL 流程，并自动生成用于提取、转换和加载数据的代码。
+  **通过简单的任务计划构建复杂的 ETL 管道** – 按计划、按需或按事件调用 Amazon Glue 任务。
+  **清理和转换传输中流数据** – 支持持续性的数据使用，并在传输过程中对其进行清理和转换。这样便可在数秒内在目标数据存储中完成分析。
+ **通过内置的机器学习去除重复数据和清理数据** – 使用 `FindMatches` 功能，您无需成为机器学习专家也能轻松清理和准备数据以进行分析。此功能可去除重复项并查找彼此不完全匹配的记录。
+  **内置任务笔记本** – 仅需在 Amazon Glue 中进行最少设置，Amazon Glue 任务笔记本即可提供无服务器笔记本，以便于您快速开始使用。
+  **编辑、调试和测试 ETL 代码** – 通过 Amazon Glue 交互式会话，您能够以交互方式探索和准备数据。您可以使用 IDE 或自己选择的笔记本以交互方式探索数据、对数据进行试验以及处理数据。
+  **定义、检测和修复敏感数据** – Amazon Glue 的敏感数据检测功能可让您定义、识别和处理数据管道和数据湖中的敏感数据。

 **构建和监控数据管道** 
+  **根据工作负载自动扩展** – 根据工作负载动态扩展和缩减资源。仅在需要时才为工作人员分配任务。
+  **使用基于事件的触发器自动处理任务** – 使用基于事件的触发器启动爬网程序或 Amazon Glue 任务，并设计相互依赖的任务与爬网程序链。
+  **运行和监控作业** - 使用您选择的引擎（Spark 或 Ray）运行 Amazon Glue 作业。使用自动监控工具 Amazon Glue 作业运行见解和 Amazon CloudTrail 对其进行监控。使用 Apache Spark 用户界面改善对 Spark 支持的作业的监控。
+  **定义 ETL 和集成活动的工作流程** – 为多个爬网程序、任务和触发器定义 ETL 和集成活动的工作流程。

## 了解 Amazon Glue 中的创新
<a name="innovations-in-glue"></a>

了解 Amazon Glue 中最新的创新，听听客户如何使用 Amazon Glue 在整个组织中实现自助式数据准备。

了解客户如何在传统设置之外扩展 Amazon Glue，以及他们如何针对作业监控和性能配置 Amazon Glue。

## Amazon Glue 入门
<a name="getting-started-with-glue"></a>

 我们建议您首先阅读以下部分：
+  [Amazon Glue 使用概述](https://docs.amazonaws.cn/glue/latest/dg/start-console-overview.html) 
+  [Amazon Glue 概念](https://docs.amazonaws.cn/glue/latest/dg/components-key-concepts.html) 
+  [为 Amazon Glue 设置 IAM 权限](https://docs.amazonaws.cn/glue/latest/dg/set-up-iam.html) 
+  [Amazon Glue Data Catalog 入门](https://docs.amazonaws.cn/glue/latest/dg/start-data-catalog.html) 
+  [在 Amazon Glue 中编写任务](https://docs.amazonaws.cn/glue/latest/dg/author-job-glue.html) 
+  [开始使用 Amazon Glue 交互式会话](https://docs.amazonaws.cn/glue/latest/dg/interactive-sessions.html) 
+  [在 Amazon Glue 中编排](https://docs.amazonaws.cn/glue/latest/dg/etl-jobs.html) 

## 访问 Amazon Glue
<a name="accessing-aws-glue"></a>

 可以使用以下界面创建、查看和管理您的 Amazon Glue 任务：
+  **Amazon Glue 控制台** – 提供 Web 界面供您创建、查看和管理 Amazon Glue 任务。要访问此控制台，请参阅 [https://console.amazonaws.cn/glue](https://console.amazonaws.cn/glue)。
+  **Amazon Glue Studio** – 提供图形界面供您直观地创建和编辑 Amazon Glue 任务。有关更多信息，请参阅 [构建可视化 ETL 作业](author-job-glue.md)。
+  **Amazon CLI 参考的 Amazon Glue 部分** – 提供可与 Amazon Glue 配合使用的 Amazon CLI 命令。有关更多信息，请参阅[适用于 Amazon Glue 的 Amazon CLI 参考](https://docs.amazonaws.cn/cli/latest/reference/glue/index.html)。
+  **Amazon Glue API** – 为开发人员提供完整的 API 参考。有关更多信息，请参阅 [Amazon Glue API](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-api.html)。

## 相关服务
<a name="what-is-glue-related-services"></a>

 Amazon Glue 的用户也使用：
+  **[Amazon Lake Formation](https://docs.amazonaws.cn/lake-formation/latest/dg/what-is-lake-formation.html)** – 此服务是授权层，提供对 Amazon Glue Data Catalog 中的资源访问权的精细控制。
+  ** [Amazon Glue DataBrew](https://docs.amazonaws.cn/databrew/latest/dg/what-is.html) ** – 是一种可视化数据准备工具，让您无需编写任何代码即可清理数据并实现标准化。