

# 连接到数据
<a name="glue-connections"></a>

Amazon Glue *连接*是一个 Data Catalog 对象，用于存储特定数据存储的登录凭证、URI 字符串、虚拟私有云（VPC）信息等。Amazon Glue 爬网程序、作业和开发端点使用连接方可访问特定类型的数据存储。您可以将连接用于源和目标，并在多个爬网程序或提取、转换、加载（ETL）作业中重复使用相同的连接。

最新版本的 Amazon Glue 连接架构提供了一种统一的方式来跨 Amazon 服务和应用程序（例如 Amazon Glue、Amazon Athena 和 Amazon SageMaker AI Unified Studio）管理数据连接。

## 连接器和连接使用概览
<a name="using-connectors-overview"></a>

*连接*包含连接到特定数据存储所需的属性。当您创建连接时，它将存储于 Amazon Glue Data Catalog 中。选择一个连接器，然后创建基于该连接器的连接。

您可以为 Amazon Web Services Marketplace 中非本地支持的数据存储订阅连接器，然后在创建连接时使用这些连接器。开发人员还可以创建自己的连接器，您可以在创建连接时使用它们。

**注意**  
在 Amazon Glue Studio 中使用自定义或 Amazon Web Services Marketplace 连接器创建的连接不会在类型设置为 `UNKNOWN` 的 Amazon Glue 控制台中显示。

以下步骤介绍了 Amazon Glue Studio 中连接器的总体使用流程。

1. 订阅 Amazon Web Services Marketplace 中的连接器，或者开发自己的连接器并将其上载到 Amazon Glue Studio。有关更多信息，请参阅 [将连接器添加到 Amazon Glue Studio](creating-custom-connectors.md#creating-connectors)。

1. 查看连接器使用信息。您可以在连接器产品页面上的 **Usage (使用)** 选项卡上找到此类信息。例如，如果您在此[适用于 Google BigQuery 的 Amazon Glue 连接器](https://www.amazonaws.cn/marketplace/pp/prodview-w2ranrogj3xmm?ref_=beagle&applicationId=GlueStudio)产品页面上单击 **Usage** (使用) 选项卡，则可以在 **Additional Resources** (其他资源) 部分查看关于此连接器的使用博客的链接。

1. 创建连接。您可以选择要使用的连接器并为连接提供附加信息，例如登录凭证、URI 字符串和 Virtual Private Cloud（VPC）信息。有关更多信息，请参阅 [为连接器创建连接](creating-connections.md)。

1. 为您的任务创建 IAM 角色。作业代入您在创建它时指定的 IAM 角色的权限。此 IAM 角色必须具有对数据存储进行身份验证、从中提取数据和向其写入数据所需的权限。

1. 创建 ETL 任务并配置 ETL 任务的数据源属性。按照自定义连接器提供程序的指示提供连接选项和身份验证信息。有关更多信息，请参阅 [使用自定义连接器编写任务](job-authoring-custom-connectors.md)。

1. 添加转换或其他数据存储以自定义 ETL 任务，如[在 Amazon Glue Studio 中启动视觉 ETL 作业](edit-nodes-chapter.md)中所示。

1. 如果为数据目标使用连接器，请为 ETL 任务配置数据目标属性。按照自定义连接器提供程序的指示提供连接选项和身份验证信息。有关更多信息，请参阅 [使用自定义连接器编写任务](job-authoring-custom-connectors.md)。

1. 配置任务属性以自定义任务运行环境，如[修改任务属性](managing-jobs-chapter.md#edit-jobs-properties)中所示。

1. 运行作业。