我可以爬取哪些数据存储? - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

我可以爬取哪些数据存储?

爬网程序可以爬取以下基于文件的数据存储和基于表的数据存储。

爬网程序使用的访问类型 数据存储
本机客户端
  • Amazon Simple Storage Service (Amazon S3)

  • Amazon DynamoDB

JDBC

在 Amazon Relational Database Service (Amazon RDS) 内或 Amazon RDS 外部:

  • Amazon Aurora

  • MariaDB

  • Microsoft SQL Server

  • MySQL

  • Oracle

  • PostgreSQL

MongoDB 客户端
  • MongoDB

  • Amazon DocumentDB(与 MongoDB 兼容)

注意

目前,AWS Glue 不支持数据流的爬网程序。

对于 JDBC、MongoDB 和 Amazon DocumentDB(与 MongoDB 兼容)数据存储,您必须指定爬网程序可用于连接到数据存储的 AWS Glue 连接。对于 Amazon S3,您可以选择指定类型为 Network 的连接。连接是存储连接信息(如凭证、URL、Data Catalog 信息等)的 Amazon Virtual Private Cloud 对象。有关更多信息,请参阅在 AWS Glue Data Catalog 中定义连接

以下是有关各种数据存储的说明。

Amazon S3

您可以选择网络爬取您的账户或其他账户中的路径。如果文件夹中的所有 Amazon S3 文件具有相同的架构,爬网程序会创建一个表。此外,如果对 Amazon S3 对象进行分区,则仅创建一个元数据表,并将分区信息添加到该表的 Data Catalog。

Amazon S3 和 Amazon DynamoDB

爬网程序使用 AWS Identity and Access Management (IAM) 角色获取访问您的数据存储的权限。传递给爬网程序的角色必须有权访问所爬取的 Amazon S3 路径和 Amazon DynamoDB 表

Amazon DynamoDB

使用 AWS Glue 控制台定义爬网程序时,您可以指定一个 DynamoDB 表。如果您使用的是 AWS Glue API,则可以指定表的列表。您可以选择仅网络爬取少量数据样本以减少爬网程序运行时间。

MongoDB 和 Amazon DocumentDB(与 MongoDB 兼容)

支持 MongoDB 3.2 和更高版本。您可以选择仅网络爬取少量数据样本以减少爬网程序运行时间。

关系数据库

使用数据库用户名和密码进行身份验证。根据数据库引擎的类型,您可以选择要爬网哪些对象,如数据库、架构和表。