Amazon Glue 连接
Amazon Glue 连接是存储特定数据存储的连接信息的数据目录对象。这些连接存储登录凭证、URI 字符串、Virtual Private Cloud (VPC) 等信息。在数据目录中创建连接,就可以不必在每次创建爬网程序或任务时都指定所有连接详细信息。您可以同时对源和目标使用连接。
可使用以下连接类型:
-
JDBC
-
Amazon Redshift
-
Amazon Relational Database Service (Amazon RDS)
-
Amazon DocumentDB
-
DynamoDB
Kafka
-
Amazon Kinesis
-
MongoDB
-
网络(指定到 Amazon Virtual Private Cloud 环境(Amazon VPC)中的数据源的连接)
-
Amazon S3
借助 Amazon Glue Studio,您还可以为自定义连接器或您从 Amazon Web Services Marketplace 购买的连接器创建连接。有关更多信息,请参阅 在 Amazon Glue Studio 中使用连接器和连接
当您为其中的任何数据源创建爬网程序或提取、转换、加载 (ETL) 作业时,您可以指定要使用的连接。您还可以在创建开发终端节点或将数据写入目标时选择指定连接。
通常,Amazon Simple Storage Service(Amazon S3)源或公共 Internet 上的目标不需要连接。但是,要从 Virtual Private Cloud(VPC)中访问 Amazon S3,则需要类型网关的 Amazon S3 VPC 终端节点。有关更多信息,请参阅适用于 Amazon S3 的 Amazon VPC 终端节点。
此外,如果您想访问位于 Virtual Private Cloud(VPC)中的 Amazon S3 数据源,则必须创建 Network
类型连接。
在连接信息中,您还必须考虑是否通过 VPC 访问数据,然后相应地设置网络参数。Amazon Glue 需要 JDBC 端点的私有 IP。与数据库的连接可以通过 VPN 和 Amazon Direct Connect 进行,因为它们提供对本地数据库的私有 IP 访问。
有关如何连接本地数据库的信息,请参阅 Amazon 大数据博客网站上的 How to access and analyze on-premises data stores using Amazon Glue