连接到数据 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

连接到数据

Amazon Glue 连接是一个 Data Catalog 对象,用于存储特定数据存储的登录凭证、URI 字符串、虚拟私有云(VPC)信息等。Amazon Glue 爬网程序、作业和开发端点使用连接方可访问特定类型的数据存储。您可以将连接用于源和目标,并在多个爬网程序或提取、转换、加载(ETL)作业中重复使用相同的连接。

最新版本的 Amazon Glue 连接架构提供了一种统一的方式来跨 Amazon 服务和应用程序(例如 Amazon Glue、Amazon Athena 和 Amazon SageMaker AI Unified Studio)管理数据连接。

连接器和连接使用概览

连接包含连接到特定数据存储所需的属性。当您创建连接时,它将存储于 Amazon Glue Data Catalog 中。选择一个连接器,然后创建基于该连接器的连接。

您可以为 Amazon Web Services Marketplace 中非本地支持的数据存储订阅连接器,然后在创建连接时使用这些连接器。开发人员还可以创建自己的连接器,您可以在创建连接时使用它们。

注意

在 Amazon Glue Studio 中使用自定义或 Amazon Web Services Marketplace 连接器创建的连接不会在类型设置为 UNKNOWN 的 Amazon Glue 控制台中显示。

以下步骤介绍了 Amazon Glue Studio 中连接器的总体使用流程。

  1. 订阅 Amazon Web Services Marketplace 中的连接器,或者开发自己的连接器并将其上载到 Amazon Glue Studio。有关更多信息,请参阅 将连接器添加到 Amazon Glue Studio

  2. 查看连接器使用信息。您可以在连接器产品页面上的 Usage (使用) 选项卡上找到此类信息。例如,如果您在此适用于 Google BigQuery 的 Amazon Glue 连接器产品页面上单击 Usage (使用) 选项卡,则可以在 Additional Resources (其他资源) 部分查看关于此连接器的使用博客的链接。

  3. 创建连接。您可以选择要使用的连接器并为连接提供附加信息,例如登录凭证、URI 字符串和 Virtual Private Cloud(VPC)信息。有关更多信息,请参阅 为连接器创建连接

  4. 为您的任务创建 IAM 角色。作业代入您在创建它时指定的 IAM 角色的权限。此 IAM 角色必须具有对数据存储进行身份验证、从中提取数据和向其写入数据所需的权限。

  5. 创建 ETL 任务并配置 ETL 任务的数据源属性。按照自定义连接器提供程序的指示提供连接选项和身份验证信息。有关更多信息,请参阅 使用自定义连接器编写任务

  6. 添加转换或其他数据存储以自定义 ETL 任务,如在 Amazon Glue Studio 中启动视觉 ETL 作业中所示。

  7. 如果为数据目标使用连接器,请为 ETL 任务配置数据目标属性。按照自定义连接器提供程序的指示提供连接选项和身份验证信息。有关更多信息,请参阅 使用自定义连接器编写任务

  8. 配置任务属性以自定义任务运行环境,如修改任务属性中所示。

  9. 运行作业。