使用数据源的数据目录表 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用数据源的数据目录表

对于 Amazon S3 和连接器之外的所有数据源,表必须位于您所选择源类型的 Amazon Glue Data Catalog 中。Amazon Glue 不会创建数据目录表。

基于数据目录表配置数据源节点
  1. 转到新任务或已保存任务的可视编辑器。

  2. 在任务图中选择一个数据源节点。

  3. 选择 Data source properties (数据源属性) 选项卡,然后输入以下信息:

    • S3 source type (S3 源类型):(仅适用于 Amazon S3 数据源)选择选项 Select a Catalog table (选择目录表) 以使用现有 Amazon Glue Data Catalog 表。

    • Database (数据库):在数据目录中选择包含要用于此任务的源表的数据库。您可以使用搜索字段按名称搜索数据库。

    • Table (表):从列表中选择与源数据关联的表。此表必须已位于 Amazon Glue Data Catalog 中。您可以使用搜索字段按名称搜索表。

    • Partition predicate (分区谓词):(仅适用于 Amazon S3 数据源)输入基于仅包含分区列的 Spark SQL 的布尔表达式。例如:"(year=='2020' and month=='04')"

    • Temporary directory (临时目录):(仅适用于 Amazon Redshift 数据源)输入 Amazon S3 中工作目录位置的路径,在其中您的 ETL 任务可以写入临时中间结果。

    • Role associated with the cluster (与集群关联的角色):(仅适用于 Amazon Redshift 数据源)为要使用的 ETL 任务输入角色,该角色包含 Amazon Redshift 集群权限。有关更多信息,请参阅数据源和数据目标权限