AWS Glue 连接 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

AWS Glue 连接

AWS Glue 连接是存储特定数据存储的连接信息的 Data Catalog 对象。这些连接存储登录凭证、URI 字符串、Virtual Private Cloud (VPC) 等信息。在 Data Catalog 中创建连接,就可以不必在每次创建爬网程序或作业时都指定所有连接详细信息。您可以同时对源和目标使用连接。

可使用以下连接类型:

  • JDBC

  • Amazon Relational Database Service (Amazon RDS)

  • Amazon Redshift

  • MongoDB,包括 Amazon DocumentDB(具有 MongoDB 兼容性)

  • 网络(指定与亚马逊虚拟私有云环境(AmazonVPC)内数据源的连接)

当您为其中的任何数据源创建爬网程序或提取、转换、加载 (ETL) 作业时,您可以指定要使用的连接。您还可以在创建开发终端节点时选择指定连接。

通常,不需要连接 Amazon Simple Storage Service (Amazon S3)公共互联网上的来源或目标。但是,要在您的 Virtual Private Cloud (VPC) 中访问 Amazon S3,则 Amazon S3 VPC 终端节点是必需的。有关更多信息,请参阅 Amazon S3 的 Amazon VPC 终端节点。)

此外,如果您想访问 Amazon S3 虚拟私有云(VPC)中的数据源,您必须创建 Network 键入连接。

在连接信息中,您还必须考虑是否通过 VPC 访问数据,然后相应地设置网络参数。 AWS Glue 需要 JDBC 终端节点的私有 IP。与数据库的连接可以通过 VPN 和 AWS Direct Connect 进行,因为它们提供对本地数据库的私有 IP 访问。

有关如何连接到本地数据库的信息,请参阅 AWS Big Data Blog 网站上的如何使用 AWS Glue 访问和分析本地数据存储