我可以爬取哪些数据存储? - Amazon连接词
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

我可以爬取哪些数据存储?

爬网程序可以爬取以下基于文件的数据存储和基于表的数据存储。

爬虫使用的访问类型 数据存储
本机客户端
  • Amazon Simple Storage Service (Amazon S3)

  • Amazon DynamoDB

JDBC

Amazon Redshift

在 Amazon Relational Database Service (Amazon RDS) 内部或 Amazon RDS 外部:

  • Amazon Aurora

  • MariaDB

  • Microsoft SQL Server

  • MySQL

  • Oracle

  • PostgreSQL

MongoDB 客户端
  • MongoDB

  • Amazon DocumentDB(与 MongoDB 兼容)

注意

目前,Amazon Glue 不支持数据流的爬网程序。

对于 JDBC、MongoDB 和 Amazon DocumentDB(具有 MongoDB 兼容性)数据存储,您必须指定Amazon Glue 连接爬网程序可以用来连接数据存储的数据目录中的数据目录。对于 Amazon S3,您可以选择指定网络类型的连接。连接是存储连接信息(如凭据、URL、Amazon Virtual Private Cloud 信息等)的数据目录对象。有关更多信息,请参阅 在 中定义连接Amazon Glue数据目录

以下是有关各种数据存储的注意事项。

Amazon S3

您可以选择在您的账户中或在其他账户中网络爬取路径。如果文件夹中的所有 Amazon S3 文件具有相同的架构,爬网程序会创建一个表。此外,如果 Amazon S3 对象进行分区,则只会创建一个元数据表并将分区信息添加到该表的数据目录中。

Amazon S3 和 Amazon DynamoDB

爬网程序使用 AWS Identity and Access Management (IAM) 角色来访问您的数据存储。传递给爬网程序的角色必须有权访问所网络爬取的 Amazon S3 路径和 Amazon DynamoDB 表。

Amazon DynamoDB

在使用Amazon Glue控制台中,您可以指定一个 DynamoDB 表。如果您使用的是Amazon GlueAPI 中,您可以指定表的列表。您可以选择只抓取少量数据样本,以减少 Crawler 的运行时间。

MongoDB 和 Amazon DocumentDB(与 MongoDB 兼容)

支持 MongoDB 版本 3.2 及更高版本。您可以选择只抓取少量数据样本,以减少 Crawler 的运行时间。

关系数据库

身份验证使用数据库用户名和密码进行。根据数据库引擎的类型,您可以选择要爬网哪些对象,如数据库、架构和表。