连接到数据

Amazon Glue 连接是一个 Data Catalog 对象，用于存储特定数据存储的登录凭证、URI 字符串、虚拟私有云（VPC）信息等。Amazon Glue 爬网程序、作业和开发端点使用连接方可访问特定类型的数据存储。您可以将连接用于源和目标，并在多个爬网程序或提取、转换、加载（ETL）作业中重复使用相同的连接。

最新版本的 Amazon Glue 连接架构提供了一种统一的方式来跨 Amazon 服务和应用程序（例如 Amazon Glue、Amazon Athena 和 Amazon SageMaker AI Unified Studio）管理数据连接。

连接器和连接使用概览

连接包含连接到特定数据存储所需的属性。当您创建连接时，它将存储于 Amazon Glue Data Catalog 中。选择一个连接器，然后创建基于该连接器的连接。

您可以为 Amazon Web Services Marketplace 中非本地支持的数据存储订阅连接器，然后在创建连接时使用这些连接器。开发人员还可以创建自己的连接器，您可以在创建连接时使用它们。

注意

在 Amazon Glue Studio 中使用自定义或 Amazon Web Services Marketplace 连接器创建的连接不会在类型设置为 UNKNOWN 的 Amazon Glue 控制台中显示。

以下步骤介绍了 Amazon Glue Studio 中连接器的总体使用流程。

订阅 Amazon Web Services Marketplace 中的连接器，或者开发自己的连接器并将其上载到 Amazon Glue Studio。有关更多信息，请参阅将连接器添加到 Amazon Glue Studio。
查看连接器使用信息。您可以在连接器产品页面上的 Usage (使用) 选项卡上找到此类信息。例如，如果您在此适用于 Google BigQuery 的 Amazon Glue 连接器产品页面上单击 Usage (使用) 选项卡，则可以在 Additional Resources (其他资源) 部分查看关于此连接器的使用博客的链接。
创建连接。您可以选择要使用的连接器并为连接提供附加信息，例如登录凭证、URI 字符串和 Virtual Private Cloud（VPC）信息。有关更多信息，请参阅为连接器创建连接。
为您的任务创建 IAM 角色。作业代入您在创建它时指定的 IAM 角色的权限。此 IAM 角色必须具有对数据存储进行身份验证、从中提取数据和向其写入数据所需的权限。
创建 ETL 任务并配置 ETL 任务的数据源属性。按照自定义连接器提供程序的指示提供连接选项和身份验证信息。有关更多信息，请参阅使用自定义连接器编写任务。
添加转换或其他数据存储以自定义 ETL 任务，如在 Amazon Glue Studio 中启动视觉 ETL 作业中所示。
如果为数据目标使用连接器，请为 ETL 任务配置数据目标属性。按照自定义连接器提供程序的指示提供连接选项和身份验证信息。有关更多信息，请参阅使用自定义连接器编写任务。
配置任务属性以自定义任务运行环境，如修改任务属性中所示。
运行作业。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

迁移到 Amazon Glue Schema 注册表

统一连接