

# 设置对数据存储的网络访问
<a name="start-connecting"></a>

要运行提取、转换和加载 (ETL) 作业，Amazon Glue 必须能够访问您的数据存储。如果不需要在您的 Virtual Private Cloud（VPC）子网中运行任务（例如，将数据从 Amazon S3 转换到 Amazon S3），则无需进行额外的配置。

如果需要在您的 VPC 子网中运行任务（例如，转换私有子网中的 JDBC 数据存储中的数据），Amazon Glue 将设置[弹性网络接口](https://docs.amazonaws.cn/vpc/latest/userguide/VPC_ElasticNetworkInterfaces.html)，使您的任务能够安全可靠地连接您 VPC 中的其他资源。每个弹性网络接口都会从您指定的子网中的 IP 地址范围内获得一个私有 IP 地址。不会获得公有 IP 地址。在 Amazon Glue 连接中指定的安全组应用于每个弹性网络接口上。有关更多信息，请参阅 [设置 Amazon VPC 以建立从 Amazon Glue 到 Amazon RDS 数据存储的 JDBC 连接](setup-vpc-for-glue-access.md)。

必须能够从 VPC 子网使用作业访问的所有 JDBC 数据存储。要从您的 VPC 内访问 Amazon S3，需要一个 [VPC 终端节点](vpc-endpoints-s3.md)。如果您的任务既要访问 VPC 资源又要访问公有 Internet，VPC 内部必须具有网络地址转换（NAT）网关。

 一个作业或开发终端节点一次只能访问一个 VPC (以及子网)。如果需要访问不同 VPC 中的数据存储，可以进行以下选择：
+ 使用 VPC 对等访问数据存储。有关 VPC 对等的更多信息，请参阅 [VPC 对等基本知识](https://docs.amazonaws.cn/vpc/latest/peering/vpc-peering-basics.html) 
+ 使用 Amazon S3 存储桶作为中间存储位置。将工作拆分成两个任务，将任务 1 的 Amazon S3 输出作为任务 2 的输入。

有关如何使用 Amazon VPC 连接到 Amazon Redshift 数据存储的详细信息，请参阅 [配置 Redshift 连接](aws-glue-programming-etl-connect-redshift-home.md#aws-glue-programming-etl-connect-redshift-configure)。

有关如何使用 Amazon VPC 连接到 Amazon RDS 数据存储的详细信息，请参阅 [设置 Amazon VPC 以建立从 Amazon Glue 到 Amazon RDS 数据存储的 JDBC 连接](setup-vpc-for-glue-access.md)。

在 Amazon VPC 中设置必要规则后，您就可以在 Amazon Glue 中创建一个连接以连接您的数据存储所需的属性。有关连接的更多信息,请参阅 [连接到数据](glue-connections.md)。

**注意**  
确保针对 Amazon Glue 设置您的 DNS 环境。有关更多信息，请参阅 [在 VPC 中设置 DNS](set-up-vpc-dns.md)。

**Topics**
+ [设置 VPC 以连接到 PyPI for Amazon Glue](setup-vpc-for-pypi.md)
+ [在 VPC 中设置 DNS](set-up-vpc-dns.md)