本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用终端节点抓取 Amazon S3 数据存储 VPC
出于安全、审计或控制目的,您可能希望您的 Amazon S3 数据存储或 Amazon S3 支持的数据目录表只能通过亚马逊虚拟私有云环境 (亚马逊VPC) 进行访问。本主题介绍如何使用连接类型在VPC终端节点中创建和测试与 Amazon S3 数据存储或 Amazon S3 支持的数据目录表的Network
连接。
执行以下任务以在数据存储中运行爬网程序:
先决条件
检查您是否满足了设置亚马逊S3数据存储或支持Amazon S3的数据目录表以通过亚马逊虚拟私有云环境 (亚马逊VPC) 访问的这些先决条件。
-
已配置VPC。例如:vpc-01685961063b0d84b。有关更多信息,请参阅《亚马逊VPC用户指南》VPC中的 “亚马逊入门”。
-
连接到的 Amazon S3 终端节点VPC。例如:vpc-01685961063b0d84b。有关更多信息,请参阅《亚马逊VPC用户指南》中的 Amazon S3 终端节点。
-
指向VPC终端节点的路由条目。例如,终端节点(vpce-0ec5da4d2652277786)使用的路由表中的 vpce-0ec5da4d26522786(vpce-0ec5da4d2652277786)。VPC
-
ACL连接到的网络VPC允许流量。
-
附加到的安全组VPC允许流量。
创建到 Amazon S3 的连接
通常,您在 Amazon Virtual Private Cloud (AmazonVPC) 内创建资源,这样就无法通过公共互联网访问这些资源。默认情况下, Amazon Glue 无法访问内部的资源VPC。 Amazon Glue 要允许访问您内部的资源VPC,您必须提供其他VPC特定配置信息,包括VPC子网IDs和安全组IDs。要创建 Network
连接,您需要指定以下信息:
-
一个VPC身份证
-
内的子网 VPC
-
安全组
设置 Network
连接
-
选择 Amazon Glue 控制台导航窗格中的 Add connection (添加连接)。
-
输入连接名称,选择 Network (网络) 作为连接类型。选择下一步。
-
配置VPC、子网和安全组信息。
-
VPC:选择包含您的数据存储的VPC名称。
-
子网:选择您的子网VPC。
-
安全组:选择一个或多个允许访问您的数据存储的安全组VPC。
-
-
选择下一步。
-
验证连接信息并选择 Finish (完成)。
测试 Amazon S3 的连接
创建Network
连接后,您可以在VPC终端节点中测试与 Amazon S3 数据存储的连接。
测试连接时可能会发生以下错误:
-
INTERNETCONNECTIONERROR: 表示存在互联网连接问题
-
INVALIDBUCKETERROR: 表示 Amazon S3 存储桶存在问题
-
S3 CONNECTIONERROR:表示无法连接亚马逊 S3
-
INVALIDCONNECTIONTYPE:表示连接类型没有预期值,
NETWORK
-
INVALIDCONNECTIONTESTTYPE: 表示网络连接测试类型有问题
-
INVALIDTARGET: 表示未正确指定 Amazon S3 存储桶
测试 Network
连接:
-
选择 Amazon Glue 控制台中的 Network (网络) 连接。
-
选择 Test connection (测试连接)。
-
选择您在上一步中创建的IAM角色并指定 Amazon S3 存储桶。
-
选择 Test connection (测试连接),开始测试。显示结果可能需要一些时间。
如果收到错误,请检查以下几点:
-
为所选角色提供正确的权限。
-
提供了正确的 Amazon S3 存储桶。
-
安全组和网络ACL允许所需的传入和传出流量。
-
VPC您指定的已连接到 Amazon S3 VPC 终端节点。
成功测试连接后,您便可创建爬网程序。
为 Amazon S3 数据存储创建爬网程序
现在,您可以创建一个爬网程序来指定您已创建的 Network
连接。有关创建爬网程序的更多详细信息,请参阅配置爬网程序。
-
首先在 Amazon Glue 控制台的导航窗格中选择 Crawlers。
-
选择 添加爬网程序。
-
指定爬网程序名称,选择 Next (下一步)。
-
当询问数据源时,选择 S3,并指定 Amazon S3 存储桶前缀和您先前创建的连接。
-
如果需要,请在同一网络连接上添加另一个数据存储。
-
选择IAM角色。该IAM角色必须允许访问 Amazon Glue 服务和 Amazon S3 存储桶。有关更多信息,请参阅 配置爬网程序。
-
定义爬网程序的计划。
-
在数据目录中选择一个现有数据库或创建一个新的数据库条目。
-
完成剩余的设置。
为 Amazon S3 支持的数据目录表创建网络爬取程序
现在,您可以创建指定您已创建 Network
连接的爬取程序和目录源类型。有关创建爬网程序的更多详细信息,请参阅配置爬网程序。
-
首先在 Amazon Glue 控制台的导航窗格中选择 Crawlers。
-
选择 添加爬网程序。
-
指定爬网程序名称,选择 Next (下一步)。
-
当询问网络爬取程序源类型时,选择现有目录表,然后指定要从可用表列表中网络爬取的现有目录表。
-
选择IAM角色。该IAM角色必须允许访问 Amazon Glue 服务和 Amazon S3 存储桶。有关更多信息,请参阅 配置爬网程序。
-
定义爬网程序的计划。
-
在数据目录中选择一个现有数据库或创建一个新的数据库条目。
-
完成剩余的设置并查看步骤。
运行爬网程序
运行您的爬网程序。
问题排查
有关使用VPC网关的 Amazon S3 存储桶的疑难解答,请参阅为什么我无法使用网关VPC终端节点连接到 S3 存储桶