Amazon Glue 连接 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

Amazon Glue 连接

Amazon Glue 连接是存储特定数据存储的连接信息的数据目录对象。这些连接存储登录凭证、URI 字符串、Virtual Private Cloud (VPC) 等信息。在数据目录中创建连接,就可以不必在每次创建爬网程序或任务时都指定所有连接详细信息。您可以同时对源和目标使用连接。

可使用以下连接类型:

  • JDBC

    • Amazon Redshift

    • Amazon Relational Database Service (Amazon RDS)

  • Amazon DocumentDB

  • DynamoDB

  • Kafka

  • Amazon Kinesis

  • MongoDB

  • 网络(指定到 Amazon Virtual Private Cloud 环境(Amazon VPC)中的数据源的连接)

  • Amazon S3

借助 Amazon Glue Studio,您还可以为自定义连接器或您从 Amazon Web Services Marketplace 购买的连接器创建连接。有关更多信息,请参阅 在 Amazon Glue Studio 中使用连接器和连接

当您为其中的任何数据源创建爬网程序或提取、转换、加载 (ETL) 作业时,您可以指定要使用的连接。您还可以在创建开发终端节点或将数据写入目标时选择指定连接。

通常,Amazon Simple Storage Service(Amazon S3)源或公共 Internet 上的目标不需要连接。但是,要从 Virtual Private Cloud(VPC)中访问 Amazon S3,则需要类型网关的 Amazon S3 VPC 终端节点。有关更多信息,请参阅适用于 Amazon S3 的 Amazon VPC 终端节点

此外,如果您想访问位于 Virtual Private Cloud(VPC)中的 Amazon S3 数据源,则必须创建 Network 类型连接。

在连接信息中,您还必须考虑是否通过 VPC 访问数据,然后相应地设置网络参数。Amazon Glue 需要 JDBC 端点的私有 IP。与数据库的连接可以通过 VPN 和 Amazon Direct Connect 进行,因为它们提供对本地数据库的私有 IP 访问。

有关如何连接本地数据库的信息,请参阅 Amazon 大数据博客网站上的 How to access and analyze on-premises data stores using Amazon Glue