连接到数据 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

连接到数据

Amazon Glue 连接是一个数据目录对象,用于存储特定数据存储的登录凭据、URI字符串、虚拟私有云 (VPC) 信息等。 Amazon Glue 爬虫、作业和开发端点使用连接来访问某些类型的数据存储。您可以为源和目标使用连接,并在多个 Crawler 或提取、转换和加载 (ETL) 作业中重复使用相同的连接。

连接器和连接使用概览

连接包含连接到特定数据存储所需的属性。当您创建连接时,它将存储于 Amazon Glue Data Catalog中。选择一个连接器,然后创建基于该连接器的连接。

您可以为中不支持的数据存储订阅连接器 Amazon Web Services Marketplace,然后在创建连接时使用这些连接器。开发人员还可以创建自己的连接器,您可以在创建连接时使用它们。

注意

使用自定义连接 Amazon Web Services Marketplace 器或中的连接器创建的连接 Amazon Glue Studio 将显示在 Amazon Glue 控制台中,类型设置为UNKNOWN

以下步骤描述了在中使用连接器的整个过程 Amazon Glue Studio:

  1. 在中订阅连接器 Amazon Web Services Marketplace,或者开发自己的连接器并将其上传到 Amazon Glue Studio。有关更多信息,请参阅 将连接器添加到 Amazon Glue Studio

  2. 查看连接器使用信息。您可以在连接器产品页面上的 Usage (使用) 选项卡上找到此类信息。例如,如果您点击此产品页面 “Google Amazon Glue 连接器” 上的 “用法” 选项卡 BigQuery,则可以在其他资源部分看到有关使用此连接器的博客链接。其他连接器可能包含指向 Overview (概览) 部分中说明的链接,正如适用于 Amazon Glue的 Cloudwatch Logs 连接器的连接器产品页面上所示。

  3. 创建连接。您可以选择要使用的连接器并为连接提供其他信息,例如登录凭据、URI字符串和虚拟私有云 (VPC) 信息。有关更多信息,请参阅 为连接器创建连接

  4. 为您的工作创建IAM角色。该任务使用您在创建任务时指定的IAM角色的权限。此IAM角色必须具有必要的权限才能使用您的数据存储进行身份验证、从中提取数据以及将数据写入您的数据存储。

  5. 创建ETL作业并为您的ETL作业配置数据源属性。按照自定义连接器提供程序的指示提供连接选项和身份验证信息。有关更多信息,请参阅 使用自定义连接器编写任务

  6. 如中所述,通过添加转换或其他数据存储来自定义您的作ETL业。在 Amazon Glue Studio 中启动视觉 ETL 作业

  7. 如果使用连接器作为数据目标,请为您的ETL作业配置数据目标属性。按照自定义连接器提供程序的指示提供连接选项和身份验证信息。有关更多信息,请参阅 使用自定义连接器编写任务

  8. 配置任务属性以自定义任务运行环境,如修改任务属性中所示。

  9. 运行作业。