我可以爬取哪些数据存储? - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

我可以爬取哪些数据存储?

爬网程序可以同时爬取以下基于文件的数据存储和基于表的数据存储。

爬网程序使用的访问类型 数据存储
本机客户端
  • Amazon Simple Storage Service (Amazon S3)

  • Amazon DynamoDB

  • Delta Lake

JDBC

Amazon Redshift

在 Amazon Relational Database Service(Amazon RDS)内部或 Amazon RDS 外部:

  • Amazon Aurora

  • MariaDB

  • Microsoft SQL Server

  • MySQL

  • Oracle

  • PostgreSQL

MongoDB 客户端
  • MongoDB

  • Amazon DocumentDB (with MongoDB compatibility)

注意

目前,Amazon Glue 不支持数据流的爬网程序。

对于 JDBC、MongoDB 和 Amazon DocumentDB (with MongoDB compatibility) 数据存储,您必须指定爬网程序可用于连接到数据存储的 Amazon Glue 连接。对于 Amazon S3,您可以选择指定网络类型的连接。连接是存储连接信息(例如凭证、URL、Amazon Virtual Private Cloud 信息等)的数据目录对象。有关更多信息,请参阅 定义 Amazon Glue 数据目录中的连接

以下是有关各种数据存储的说明。

Amazon S3

您可以选择在您的账户中或在其他账户中爬取路径。如果文件夹中的所有 Amazon S3 文件具有相同的架构,爬网程序会创建一个表。此外,如果对 Amazon S3 对象进行了分区,则只会创建一个元数据表,并将分区信息添加到该表的数据目录中。

Amazon S3 和 Amazon DynamoDB

爬网程序使用 Amazon Identity and Access Management(IAM)权限角色来访问您的数据存储。传递给爬网程序的角色必须有权访问所爬取的 Amazon S3 路径和 Amazon DynamoDB 表

Amazon DynamoDB

在使用 Amazon Glue 控制台定义爬网程序时,请指定一个 DynamoDB 表。如果您使用的是 Amazon Glue API,则可以指定表的列表。您可以选择仅爬取一小部分数据样本以减少爬网程序的运行时间。

Delta Lake

对于每个 Delta Lake 数据存储,网络爬取程序会扫描 Delta 表的事务处理日志以检测元数据。它会根据您选择的配置参数,使用由分区键分区的清单文件填充 _symlink_manifest 文件夹。

MongoDB 和 Amazon DocumentDB (with MongoDB compatibility)

支持 MongoDB 版本 3.2 及更高版本。您可以选择仅爬取一小部分数据样本以减少爬网程序的运行时间。

关系数据库

使用数据库用户名和密码进行身份验证。根据数据库引擎的类型,您可以选择要爬网哪些对象,如数据库、架构和表。