AWS Glue 连接 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS Glue 连接

AWS Glue 连接是存储特定数据存储的连接信息的 Data Catalog 对象。这些连接存储登录凭证、URI 字符串、Virtual Private Cloud (VPC) 等信息。在 Data Catalog 中创建连接,就可以不必在每次创建爬网程序或作业时都指定所有连接详细信息。您可以同时对源和目标使用连接。

可使用以下连接类型:

  • JDBC

  • Amazon Relational Database Service (Amazon RDS)

  • Amazon Redshift

  • Amazon DocumentDB

  • MongoDB

  • Kafka

  • 网络(指定与 Amazon Virtual Private Cloud 环境 (Amazon VPC) 中的数据源的连接)

当您为其中的任何数据源创建爬网程序或提取、转换、加载 (ETL) 作业时,您可以指定要使用的连接。您还可以在创建开发终端节点时选择指定连接。

通常,对于公共 Internet 上的 Amazon Simple Storage Service (Amazon S3) 源或目标不需要连接。但是,要在您的 Virtual Private Cloud (VPC) 中访问 Amazon S3,则 Amazon S3 VPC 终端节点是必需的。有关更多信息,请参阅Amazon S3 的 Amazon VPC 终端节点

此外,如果您希望访问位于 Virtual Private Cloud (VPC) 中的 Amazon S3 数据源,则必须创建 Network 类型连接。

在连接信息中,您还必须考虑是否通过 VPC 访问数据,然后相应地设置网络参数。 AWS Glue 需要 JDBC 终端节点的私有 IP。与数据库的连接可以通过 VPN 和 AWS Direct Connect 进行,因为它们提供对本地数据库的私有 IP 访问。

有关如何连接到本地数据库的信息,请参阅 大数据博客网站上的AWS Glue如何使用 访问和分析本地数据存储AWS。