我可以爬取哪些数据存储?
爬网程序可以同时爬取以下基于文件的数据存储和基于表的数据存储。
爬网程序使用的访问类型 | 数据存储 |
---|---|
本机客户端 |
|
JDBC |
Amazon Redshift 在 Amazon Relational Database Service(Amazon RDS)内部或 Amazon RDS 外部:
|
MongoDB 客户端 |
|
目前,Amazon Glue 不支持数据流的爬网程序。
对于 JDBC、MongoDB 和 Amazon DocumentDB (with MongoDB compatibility) 数据存储,您必须指定爬网程序可用于连接到数据存储的 Amazon Glue 连接。对于 Amazon S3,您可以选择指定网络类型的连接。连接是存储连接信息(例如凭证、URL、Amazon Virtual Private Cloud 信息等)的数据目录对象。有关更多信息,请参阅在 Amazon Glue Data Catalog 中定义连接。
以下是有关各种数据存储的说明。
- Amazon S3
-
您可以选择在您的账户中或在其他账户中爬取路径。如果文件夹中的所有 Amazon S3 文件具有相同的架构,爬网程序会创建一个表。此外,如果对 Amazon S3 对象进行了分区,则只会创建一个元数据表,并将分区信息添加到该表的数据目录中。
- Amazon S3 和 Amazon DynamoDB
-
爬网程序使用 Amazon Identity and Access Management(IAM)权限角色来访问您的数据存储。传递给爬网程序的角色必须有权访问所爬取的 Amazon S3 路径和 Amazon DynamoDB 表。
- Amazon DynamoDB
-
在使用 Amazon Glue 控制台定义爬网程序时,请指定一个 DynamoDB 表。如果您使用的是 Amazon Glue API,则可以指定表的列表。您可以选择仅爬取一小部分数据样本以减少爬网程序的运行时间。
- Delta Lake
-
对于每个 Delta Lake 数据存储,网络爬取程序会扫描 Delta 表的事务处理日志以检测元数据。它会根据您选择的配置参数,使用由分区键分区的清单文件填充
_symlink_manifest
文件夹。 - MongoDB 和 Amazon DocumentDB (with MongoDB compatibility)
-
支持 MongoDB 版本 3.2 及更高版本。您可以选择仅爬取一小部分数据样本以减少爬网程序的运行时间。
- 关系数据库
-
使用数据库用户名和密码进行身份验证。根据数据库引擎的类型,您可以选择要爬网哪些对象,如数据库、架构和表。