爬行 Amazon S3 使用VPC端点的数据存储 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

爬行 Amazon S3 使用VPC端点的数据存储

对于安全、审计或控制目的,您可能需要 Amazon S3 数据存储区只能通过亚马逊虚拟私有云环境(AmazonVPC)访问。本主题介绍如何创建和测试与 Amazon S3 在VPC端点中使用 Network 连接类型。

执行以下任务以在数据存储区运行爬探器:

Prerequisites

检查您是否符合以下设置您的 Amazon S3 通过亚马逊虚拟私有云环境(AmazonVPC)访问数据存储

  • 配置的vpc。例如:vPC-01685961063B0D84B。有关详细信息,请参阅 AmazonVPC入门.

  • 一个 Amazon S3 端点已连接到VPC。例如:vPC-01685961063B0D84B。有关详细信息,请参阅 AmazonS3端点.

    
							示例 Amazon S3 端点已连接到VPC。
  • 指向VPC端点的路由条目。例如VPC端点(VPCE-0EC5DA4D265227786)所使用路由表中的VPCE-0EC5DA4D265227786。

    
							指向VPC端点的路由条目示例。
  • 连接到VPC的网络ACL允许流量。

  • 连接到VPC的安全组允许流量。

创建与 Amazon S3

通常,您在 Amazon Virtual Private Cloud (Amazon VPC) 内部创建资源,以便这些资源不能通过公共 Internet 访问。默认情况下,AWS Glue 无法访问 VPC 中的资源。要让 AWS Glue 能够访问 VPC 中的资源,您必须提供包括 VPC 子网 ID 和安全组 ID 在内的其他 VPC 特定的配置信息。创建 Network 连接您需要指定以下信息:

  • VPCID

  • VPC内的子网

  • 安全组

设置 Network 连接:

  1. 选择 添加连接 在AWS上胶控制台的导航窗格中。

  2. 输入连接名称,选择 网络 作为连接类型。选择 Next (下一步)

    
							选择连接类型。
  3. 配置vpc、子网和安全组信息。

    • VPC:选择包含DataStore的VPC名称。

    • 子网:在vpc中选择子网。

    • 安全组:选择允许访问vpc中数据存储区的一个或多个安全组。

    
							选择连接类型。
  4. 选择 Next (下一步)

  5. 验证连接信息并选择 完成.

    
							选择连接类型。

测试连接到 Amazon S3

创建您的 Network 连接,您可以测试 Amazon S3 VPC端点中的数据存储。

测试连接时可能出现以下错误:

  • Internet连接错误:表示互联网连接问题

  • 无效的桶错误:表示问题 Amazon S3 桶

  • S3连接错误:表示未能连接到 Amazon S3

  • 连接类型无效:表示连接类型没有预期值, NETWORK

  • 连接测试类型无效:表示网络连接测试类型出现问题

  • 目标无效:表示 Amazon S3 未正确指定桶子

测试A Network 连接:

  1. 选择 网络 AWS上胶控制台中的连接。

  2. 选择 Test connection (测试连接)

  3. 选择您在上一步中创建的IAM角色,并指定 Amazon S3 桶。

  4. 选择 测试连接 开始测试。显示结果可能需要几个时间。


							测试连接

如果您收到错误,请检查以下内容:

  • 已选择角色的正确权限。

  • 正确 Amazon S3 提供桶。

  • 安全组和网络ACL允许所需的传入和传出流量。

  • 您指定的VPC连接到 Amazon S3 VPC端点。

成功测试连接后,您可以创建爬网。

创建爬行器

现在您可以创建一个指定 Network 已创建的连接。有关创建爬探器的详细信息,请参阅 在 AWS Glue 控制台上使用爬网程序.

  1. 首先选择 爬虫 在AWS上胶控制台上的导航窗格中。

  2. 选择 Add crawler (添加爬网程序)

  3. 指定爬探器名称并选择 下一步.

  4. 当询问数据源时,选择 S3,并指定 Amazon S3 铲斗前缀和您之前创建的连接。

    
							测试连接
  5. 如果需要,在同一网络连接上添加另一个数据存储区。

  6. 选择iam角色。IAM角色必须允许访问 AWS Glue 服务和 Amazon S3 桶。有关更多信息,请参阅 在 AWS Glue 控制台上使用爬网程序。)

    
							测试连接
  7. 定义爬行器的计划。

  8. 选择数据目录中的现有数据库,或创建新数据库条目。

    
							测试连接
  9. 完成剩余设置。

运行爬行器

运行您的爬行器。


			按需运行爬行器。

Troubleshooting

对于与 Amazon S3 使用VPC网关的存储区,请参阅 为什么我不能使用网关VPC端点连接到S3存储区?