设置环境以访问数据存储 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

设置环境以访问数据存储

要运行提取、转换和加载 (ETL) 作业,AWS Glue 必须能够访问您的数据存储。如果不需要在您的 Virtual Private Cloud (VPC) 子网中运行作业 — 例如,将数据从 Amazon S3 转换到 Amazon S3 — 则无需进行额外的配置。

如果需要在您的 VPC 子网中运行作业 — 例如,转换私有子网中的 JDBC 数据存储中的数据 —AWS Glue 设置弹性网络接口,使您的作业能够安全可靠地连接您的 VPC 中的其他资源。每个弹性网络接口都会从您指定的子网中的 IP 地址范围内获得一个私有 IP 地址。不会获得公有 IP 地址。在 AWS Glue 连接中指定的安全组应用于每个弹性网络接口上。有关更多信息,请参阅 设置 VPC 以连接到 JDBC 数据存储

必须能够从 VPC 子网使用作业访问的所有 JDBC 数据存储。要从您的 VPC 内访问 Amazon S3,需要一个 VPC 终端节点。如果您的作业既要访问 VPC 资源又要访问公共 Internet,VPC 内部必须具有网络地址转换 (NAT) 网关。

一个作业或开发终端节点一次只能访问一个 VPC (以及子网)。如果需要访问不同 VPC 中的数据存储,可以进行以下选择:

  • 使用 VPC 对等访问数据存储。有关 VPC 对等的更多信息,请参阅 VPC 对等基本知识

  • 使用 Amazon S3 存储桶作为中间存储位置。将工作拆分成两个作业,将作业 1 的 Amazon S3 输出作为作业 2 的输入。

对于 JDBC 数据存储,使用连接数据存储所必需的属性在 AWS Glue 中创建一个连接。有关该连接的更多信息,请参阅将连接添加到您的数据存储

注意

确保针对 AWS Glue 设置您的 DNS 环境。有关更多信息,请参阅在 VPC 中设置 DNS