使用 VPC 终端节点搜索 Amazon S3 数据存储 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 VPC 终端节点搜索 Amazon S3 数据存储

出于安全、审核或控制目的,您可能希望 Amazon S3 数据存储仅通过 Amazon Virtual Private Cloud (Amazon VPC) 访问。本主题介绍如何在 VPC 终端节点中创建和测试与 Amazon S3 数据存储的连接,使用Network连接类型。

执行以下任务以在数据存储中运行 Crawler:

Prerequisites

请确认您是否满足以下先决条件:将 Amazon S3 数据存储设置为通过 Amazon Virtual Private Cloud (Amazon VPC) 访问。

  • 已配置的 VPC。例如:电子商务中心。有关更多信息,请参阅 。Amazon VPC 入门中的Amazon VPC 用户指南

  • 连接到 VPC 的 Amazon S3 终端节点。例如:电子商务中心。有关更多信息,请参阅 。Amazon S3 的终端节点中的Amazon VPC 用户指南

    
                            连接到 VPC 的 Amazon S3 终端节点示例。
  • 指向 VPC 终端节点的路由条目。例如,VPC 终端节点所使用的路由表中的路由表中。

    
                            指向 VPC 终端节点的路由条目示例。
  • 连接到 VPC 的网络 ACL 允许流量。

  • 连接到 VPC 的安全组允许流量。

创建到 Amazon S3 的连接

通常,您在 Amazon Virtual Private Cloud (Amazon VPC) 内部创建资源,以便这些资源不能通过公共 Internet 访问。默认情况下,AWS Glue 无法访问 VPC 中的资源。要让 AWS Glue 能够访问 VPC 中的资源,您必须提供包括 VPC 子网 ID 和安全组 ID 在内的其他 VPC 特定的配置信息。创建Network连接,您需要指定以下信息:

  • VPC ID

  • VPC 内的子网

  • 一个安全组

设置Network连接:

  1. 选择添加连接在 AWS Glue 控制台的导航窗格中。

  2. 输入连接名称,选择网络作为连接类型。选择 Next

    
                            选择连接类型。
  3. 配置 VPC、子网和安全组信息。

    • VPC:选择包含您的数据存储的 VPC 名称。

    • 子网:选择 VPC 内的子网。

    • 安全组:选择允许访问 VPC 中数据存储的一个或多个安全组。

    
                            选择连接类型。
  4. 选择 Next

  5. 验证连接信息并选择Finish

    
                            选择连接类型。

测试到 Amazon S3 的连接

一旦您已创建Network连接,您可以在 VPC 终端节点中测试与 Amazon S3 数据存储的连接。

测试连接时可能会发生以下错误:

  • 互联网连接错误:表示互联网连接问题

  • 无效的存储桶错误:表示 Amazon S3 存储桶存在问题

  • S3 连接错误:表示无法连接到 Amazon S3

  • 无效的连接类型:表示连接类型不具有预期值,NETWORK

  • 无效的连接测试类型:表示网络连接测试类型存在问题

  • 无效目标:表示尚未正确指定 Amazon S3 存储桶

测试Network连接:

  1. 选择网络连接到 AWS Glue 控制台中。

  2. 选择 Test connection (测试连接)

  3. 选择您在上一步中创建的 IAM 角色,然后指定 Amazon S3 存储桶。

  4. 选择测试连接启动测试。显示结果可能需要一些时间。


                    测试连接。

如果您收到错误,请检查以下内容:

  • 将为所选角色提供正确的权限。

  • 提供了正确的 Amazon S3 存储桶。

  • 安全组和网络 ACL 允许所需的传入和传出流量。

  • 您指定的 VPC 已连接到 Amazon S3 VPC 终端节点。

成功测试该连接后,您便可创建爬网程序。

创建爬网程序

现在,您可以创建一个爬网程序,指定Network连接。有关创建爬网程序的更多信息,请参阅在 AWS Glue 控制台上使用爬网程序

  1. 首先选择爬网程序在 AWS Glue 控制台的导航窗格中。

  2. 选择 Add crawler (添加爬网程序)

  3. 指定爬网程序名称,并选择下一步

  4. 当要求输入数据源时,选择S3,然后指定 Amazon S3 存储桶前缀和您之前创建的连接。

    
                            测试连接。
  5. 如果需要,请在同一网络连接上添加另一个数据存储。

  6. 选择 IAM 角色。IAM 角色必须允许访问 AWS Glue 服务和 Amazon S3 存储桶。有关更多信息,请参阅在 AWS Glue 控制台上使用爬网程序

    
                            测试连接。
  7. 定义爬网程序的计划。

  8. 在数据目录中选择一个现有数据库,或创建一个新数据库条目。

    
                            测试连接。
  9. 完成剩余的设置。

运行爬网程序

运行你的爬虫


                    按需运行您的爬虫。

Troubleshooting

有关使用 VPC 网关的 Amazon S3 存储桶的故障排除,请参阅为什么我无法使用网关 VPC 终端节点连接到 S3 存储桶?