使用终端节点抓取 Amazon S3 数据存储 VPC - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用终端节点抓取 Amazon S3 数据存储 VPC

出于安全、审计或控制目的,您可能希望您的 Amazon S3 数据存储或 Amazon S3 支持的数据目录表只能通过亚马逊虚拟私有云环境 (亚马逊VPC) 进行访问。本主题介绍如何使用连接类型在VPC终端节点中创建和测试与 Amazon S3 数据存储或 Amazon S3 支持的数据目录表的Network连接。

执行以下任务以在数据存储中运行爬网程序:

先决条件

检查您是否满足了设置亚马逊S3数据存储或支持Amazon S3的数据目录表以通过亚马逊虚拟私有云环境 (亚马逊VPC) 访问的这些先决条件。

  • 已配置VPC。例如:vpc-01685961063b0d84b。有关更多信息,请参阅《亚马逊VPC用户指南》VPC中的 “亚马逊入门”。

  • 连接到的 Amazon S3 终端节点VPC。例如:vpc-01685961063b0d84b。有关更多信息,请参阅《亚马逊VPC用户指南》中的 Amazon S3 终端节点

    连接到 Amazon S3 终端节点的示例VPC。
  • 指向VPC终端节点的路由条目。例如,终端节点(vpce-0ec5da4d2652277786)使用的路由表中的 vpce-0ec5da4d26522786(vpce-0ec5da4d2652277786)。VPC

    指向VPC终端节点的路由条目示例。
  • ACL连接到的网络VPC允许流量。

  • 附加到的安全组VPC允许流量。

创建到 Amazon S3 的连接

通常,您在 Amazon Virtual Private Cloud (AmazonVPC) 内创建资源,这样就无法通过公共互联网访问这些资源。默认情况下, Amazon Glue 无法访问内部的资源VPC。 Amazon Glue 要允许访问您内部的资源VPC,您必须提供其他VPC特定配置信息,包括VPC子网IDs和安全组IDs。要创建 Network 连接,您需要指定以下信息:

  • 一个VPC身份证

  • 内的子网 VPC

  • 安全组

设置 Network 连接

  1. 选择 Amazon Glue 控制台导航窗格中的 Add connection (添加连接)

  2. 输入连接名称,选择 Network (网络) 作为连接类型。选择下一步

    选择连接类型。
  3. 配置VPC、子网和安全组信息。

    • VPC:选择包含您的数据存储的VPC名称。

    • 子网:选择您的子网VPC。

    • 安全组:选择一个或多个允许访问您的数据存储的安全组VPC。

    选择连接类型。
  4. 选择下一步

  5. 验证连接信息并选择 Finish (完成)

    选择连接类型。

测试 Amazon S3 的连接

创建Network连接后,您可以在VPC终端节点中测试与 Amazon S3 数据存储的连接。

测试连接时可能会发生以下错误:

  • INTERNETCONNECTIONERROR: 表示存在互联网连接问题

  • INVALIDBUCKETERROR: 表示 Amazon S3 存储桶存在问题

  • S3 CONNECTIONERROR:表示无法连接亚马逊 S3

  • INVALIDCONNECTIONTYPE:表示连接类型没有预期值,NETWORK

  • INVALIDCONNECTIONTESTTYPE: 表示网络连接测试类型有问题

  • INVALIDTARGET: 表示未正确指定 Amazon S3 存储桶

测试 Network 连接:

  1. 选择 Amazon Glue 控制台中的 Network (网络) 连接。

  2. 选择 Test connection (测试连接)

  3. 选择您在上一步中创建的IAM角色并指定 Amazon S3 存储桶。

  4. 选择 Test connection (测试连接),开始测试。显示结果可能需要一些时间。

测试连接。

如果收到错误,请检查以下几点:

  • 为所选角色提供正确的权限。

  • 提供了正确的 Amazon S3 存储桶。

  • 安全组和网络ACL允许所需的传入和传出流量。

  • VPC您指定的已连接到 Amazon S3 VPC 终端节点。

成功测试连接后,您便可创建爬网程序。

为 Amazon S3 数据存储创建爬网程序

现在,您可以创建一个爬网程序来指定您已创建的 Network 连接。有关创建爬网程序的更多详细信息,请参阅配置爬网程序

  1. 首先在 Amazon Glue 控制台的导航窗格中选择 Crawlers

  2. 选择 添加爬网程序

  3. 指定爬网程序名称,选择 Next (下一步)

  4. 当询问数据源时,选择 S3,并指定 Amazon S3 存储桶前缀和您先前创建的连接。

    测试连接。
  5. 如果需要,请在同一网络连接上添加另一个数据存储。

  6. 选择IAM角色。该IAM角色必须允许访问 Amazon Glue 服务和 Amazon S3 存储桶。有关更多信息,请参阅 配置爬网程序

    测试连接。
  7. 定义爬网程序的计划。

  8. 在数据目录中选择一个现有数据库或创建一个新的数据库条目。

    测试连接。
  9. 完成剩余的设置。

为 Amazon S3 支持的数据目录表创建网络爬取程序

现在,您可以创建指定您已创建 Network 连接的爬取程序和目录源类型。有关创建爬网程序的更多详细信息,请参阅配置爬网程序

  1. 首先在 Amazon Glue 控制台的导航窗格中选择 Crawlers

  2. 选择 添加爬网程序

  3. 指定爬网程序名称,选择 Next (下一步)

  4. 当询问网络爬取程序源类型时,选择现有目录表,然后指定要从可用表列表中网络爬取的现有目录表。

    选择网络爬取源类型。
  5. 选择IAM角色。该IAM角色必须允许访问 Amazon Glue 服务和 Amazon S3 存储桶。有关更多信息,请参阅 配置爬网程序

  6. 定义爬网程序的计划。

  7. 在数据目录中选择一个现有数据库或创建一个新的数据库条目。

  8. 完成剩余的设置并查看步骤。

    选择网络爬取程序源类型。

运行爬网程序

运行您的爬网程序。

按需运行您的爬网程序。

问题排查

有关使用VPC网关的 Amazon S3 存储桶的疑难解答,请参阅为什么我无法使用网关VPC终端节点连接到 S3 存储桶