使用 VPC 终端节点对 Amazon S3 数据存储进行爬网 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 VPC 终端节点对 Amazon S3 数据存储进行爬网

出于安全、审计或控制目的,您可能希望 Amazon S3 数据存储只能通过 Amazon Virtual Private Cloud 环境 (Amazon VPC) 进行访问。本主题介绍如何使用 Amazon S3 连接类型创建和测试与 VPC 终端节点中的 Network 数据存储的连接。

执行以下任务可在数据存储上运行爬网程序:

Prerequisites

检查您是否满足将 Amazon S3 数据存储设置为通过 Amazon Virtual Private Cloud 环境 (Amazon VPC) 访问的这些先决条件

  • 已配置的 VPC。例如:vpc-01685961063b0d84b。有关更多信息,请参阅 Amazon VPC 入门

  • 附加到 VPC 的 Amazon S3 终端节点。例如:vpc-01685961063b0d84b。有关更多信息,请参阅 Amazon S3 的终端节点

    
                            附加到 VPC 的 Amazon S3 终端节点的示例。
  • 指向 VPC 终端节点的路由入口。例如,VPC 终端节点使用的路由表中的 vpce-0ec5da4d265227786(vpce-0ec5da4d265227786)。

    
                            指向 VPC 终端节点的路由入口的示例。
  • 附加到 VPC 的网络 ACL 允许流量。

  • 附加到 VPC 的安全组允许流量。

创建到 Amazon S3 的连接

通常,您在 Amazon Virtual Private Cloud (Amazon VPC) 内部创建资源,以便这些资源不能通过公共 Internet 访问。默认情况下,AWS Glue 无法访问 VPC 中的资源。要使 AWS Glue 能够访问 VPC 中的资源,您必须提供包括 VPC 子网 IDs 和安全组 IDs 的其他 VPC 特定配置信息。 要创建 Network 连接,您需要指定以下信息:

  • VPC ID

  • VPC 中的子网

  • 安全组

要设置 Network 连接,请执行以下操作:

  1. 控制台的导航窗格中选择 Add connection (添加连接)AWS Glue。

  2. 输入连接名称,选择 Network (网络) 作为连接类型。选择 Next (下一步)

    
                            选择连接类型。
  3. 配置 VPC、子网和安全组信息。

    • VPC:选择包含您的数据存储的 VPC 名称。

    • Subnet (子网):选择 VPC 内的子网。

    • 安全组:选择一个或多个允许访问您的 VPC 中的数据存储的安全组。

    
                            选择连接类型。
  4. 选择 Next (下一步)

  5. 验证连接信息,然后选择 Finish (完成)

    
                            选择连接类型。

测试到 Amazon S3 的连接

创建 Network 连接后,您可以测试与 VPC 终端节点中的 Amazon S3 数据存储的连接。

在测试连接时,可能会出现以下错误:

  • INTERNET CONNECTION ERROR:指示 Internet 连接问题

  • INVALID BUCKET 错误:表示 Amazon S3 存储桶出现问题

  • S3 CONNECTION ERROR:表示无法连接到Amazon S3

  • INVALID CONNECTION TYPE:指示连接类型没有预期值 NETWORK

  • INVALID CONNECTION 测试类型:指示网络连接测试的类型存在问题

  • INVALID TARGET:指示未正确指定 Amazon S3 存储桶

测试 Network 连接:

  1. 控制台中选择 Network (网络)AWS Glue 连接。

  2. 选择 Test connection (测试连接)

  3. 选择您在上一步中创建的 IAM 角色并指定 Amazon S3 存储桶。

  4. 选择 Test connection (测试连接) 以启动测试。显示结果可能需要一些时间。


                    测试连接。

如果您收到错误,请检查以下内容:

  • 为所选角色提供了正确的权限。

  • 提供了正确的 Amazon S3 存储桶。

  • 安全组和网络 ACL 允许所需的传入和传出流量。

  • 您指定的 VPC 已连接到 Amazon S3 VPC 终端节点。

成功测试连接后,您可以创建爬网程序。

创建爬网程序

您现在可以创建一个爬网程序来指定已创建的 Network 连接。有关创建爬网程序的更多详细信息,请参阅在 AWS Glue 控制台上使用爬网程序

  1. 首先在 控制台上的导航窗格中选择 Crawlers (爬网程序)AWS Glue。

  2. 选择 Add crawler (添加爬网程序)

  3. 指定爬网程序名称,然后选择 Next (下一步)

  4. 当询问数据源时,选择 S3,并指定 Amazon S3 存储桶前缀和您之前创建的连接。

    
                            测试连接。
  5. 如果您需要,请在同一网络连接上添加其他数据存储。

  6. 选择 IAM 角色。IAM 角色必须允许访问 AWS Glue 服务和 Amazon S3 存储桶。有关更多信息,请参阅在 AWS Glue 控制台上使用爬网程序

    
                            测试连接。
  7. 定义爬网程序的计划。

  8. 在数据目录中选择现有数据库,或创建新的数据库条目。

    
                            测试连接。
  9. 完成其余设置。

运行爬网程序

运行您的爬网程序。


                    按需运行您的爬网程序。

Troubleshooting

有关与使用 VPC 网关的 Amazon S3 存储桶相关的故障排除,请参阅为什么我无法使用网关 VPC 终端节点连接到 S3 存储桶?