使用数据源的数据目录表 - Amazon Glue

使用数据源的数据目录表

对于 Amazon S3 和连接器之外的所有数据源，表必须位于您所选择源类型的 Amazon Glue Data Catalog 中。Amazon Glue 不会创建数据目录表。

基于数据目录表配置数据源节点

转到新任务或已保存任务的可视编辑器。
在任务图中选择一个数据源节点。
选择 Data source properties (数据源属性) 选项卡，然后输入以下信息：
- S3 source type (S3 源类型)：（仅适用于 Amazon S3 数据源）选择选项 Select a Catalog table (选择目录表) 以使用现有 Amazon Glue Data Catalog 表。
- Database (数据库)：在数据目录中选择包含要用于此任务的源表的数据库。您可以使用搜索字段按名称搜索数据库。
- Table (表)：从列表中选择与源数据关联的表。此表必须已位于 Amazon Glue Data Catalog 中。您可以使用搜索字段按名称搜索表。
- Partition predicate (分区谓词)：（仅适用于 Amazon S3 数据源）输入基于仅包含分区列的 Spark SQL 的布尔表达式。例如："(year=='2020' and month=='04')"
- Temporary directory (临时目录)：（仅适用于 Amazon Redshift 数据源）输入 Amazon S3 中工作目录位置的路径，在其中您的 ETL 任务可以写入临时中间结果。
- Role associated with the cluster (与集群关联的角色)：（仅适用于 Amazon Redshift 数据源）为要使用的 ETL 任务输入角色，该角色包含 Amazon Redshift 集群权限。有关更多信息，请参阅数据源和数据目标权限。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

修改数据来源节点的属性

将连接器用作数据源