本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
连接到数据
Amazon Glue 连接是一个数据目录对象,用于存储特定数据存储的登录凭据、URI字符串、虚拟私有云 (VPC) 信息等。 Amazon Glue 爬虫、作业和开发端点使用连接来访问某些类型的数据存储。您可以为源和目标使用连接,并在多个 Crawler 或提取、转换和加载 (ETL) 作业中重复使用相同的连接。
连接器和连接使用概览
连接包含连接到特定数据存储所需的属性。当您创建连接时,它将存储于 Amazon Glue Data Catalog中。选择一个连接器,然后创建基于该连接器的连接。
您可以为中不支持的数据存储订阅连接器 Amazon Web Services Marketplace,然后在创建连接时使用这些连接器。开发人员还可以创建自己的连接器,您可以在创建连接时使用它们。
注意
使用自定义连接 Amazon Web Services Marketplace 器或中的连接器创建的连接 Amazon Glue Studio 将显示在 Amazon Glue 控制台中,类型设置为UNKNOWN
。
以下步骤描述了在中使用连接器的整个过程 Amazon Glue Studio:
-
在中订阅连接器 Amazon Web Services Marketplace,或者开发自己的连接器并将其上传到 Amazon Glue Studio。有关更多信息,请参阅 将连接器添加到 Amazon Glue Studio。
-
查看连接器使用信息。您可以在连接器产品页面上的 Usage (使用) 选项卡上找到此类信息。例如,如果您点击此产品页面 “Google Amazon Glue 连接器
” 上的 “用法” 选项卡 BigQuery,则可以在其他资源部分看到有关使用此连接器的博客链接。其他连接器可能包含指向 Overview (概览) 部分中说明的链接,正如适用于 Amazon Glue的 Cloudwatch Logs 连接器 的连接器产品页面上所示。 -
创建连接。您可以选择要使用的连接器并为连接提供其他信息,例如登录凭据、URI字符串和虚拟私有云 (VPC) 信息。有关更多信息,请参阅 为连接器创建连接。
-
为您的工作创建IAM角色。该任务使用您在创建任务时指定的IAM角色的权限。此IAM角色必须具有必要的权限才能使用您的数据存储进行身份验证、从中提取数据以及将数据写入您的数据存储。
-
创建ETL作业并为您的ETL作业配置数据源属性。按照自定义连接器提供程序的指示提供连接选项和身份验证信息。有关更多信息,请参阅 使用自定义连接器编写任务。
-
如中所述,通过添加转换或其他数据存储来自定义您的作ETL业。在 Amazon Glue Studio 中启动视觉 ETL 作业
-
如果使用连接器作为数据目标,请为您的ETL作业配置数据目标属性。按照自定义连接器提供程序的指示提供连接选项和身份验证信息。有关更多信息,请参阅 使用自定义连接器编写任务。
-
配置任务属性以自定义任务运行环境,如修改任务属性中所示。
-
运行作业。