使用数据源的数据目录表 - AmazonGlue 工作室
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用数据源的数据目录表

对于除 Amazon S3 和连接器之外的所有数据源,表必须存在于Amazon Glue Data Catalog作为您选择的源类型。AmazonGlue 工作室不会创建数据目录表。

基于数据目录表配置数据源节点

  1. 转到新作业或已保存作业的可视编辑器。

  2. 在作业图中选择一个数据源节点。

  3. 选择数据源属性选项卡,然后输入以下信息:

    • S3 源类型:(仅适用于 Amazon S3 数据源)选择选择目录表以使用现有Amazon Glue Data Catalog表。

    • 数据库:在数据目录中选择包含要用于此作业的源表的数据库。可以使用搜索字段按数据库名称搜索数据库。

    • :从列表中选择与源数据关联的表。此表必须已存在于Amazon Glue Data Catalog。可以使用搜索字段按表名称搜索表。

    • 分区谓词:(仅适用于 Amazon S3 数据源)输入基于 Spark SQL 的布尔表达式,该表达式仅包含分区列。例如:"(year=='2020' and month=='04')"

    • 临时目录:(仅适用于 Amazon Redshift 数据源)输入 Amazon S3 中工作目录位置的路径,您的 ETL 作业可以写入临时中间结果。

    • 与群集关联的角色:(仅限于 Amazon Redshift 数据源)输入要使用的 ETL 作业的角色,该角色包含Amazon Redshift集群。有关更多信息,请参阅 数据源和数据目标权限