在 Amazon Glue Studio 中使用 Delta Lake 框架 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

在 Amazon Glue Studio 中使用 Delta Lake 框架

在数据来源中使用 Delta Lake 框架

在 Amazon S3 数据来源中使用 Delta Lake 框架

  1. 从“来源”菜单中选择 Amazon S3。

  2. 如果您选择 Data Catalog 表作为 Amazon S3 来源类型,请选择数据库和表。

  3. Amazon Glue Studio 显示格式为 Delta Lake 和 Amazon S3 URL。

  4. 选择其他选项以输入键值对。例如,键值对可能为::timestampAsOf 和:2023-02-24 14:16:18。

    
                            屏幕截图显示了 Amazon S3 数据来源节点的数据来源属性选项卡中的其他选项部分。
  5. 如果您选择 Amazon S3 位置作为 Amazon S3 来源类型,请通过单击浏览 Amazon S3 选择 Amazon S3 URL。

  6. 数据格式中,选择 Delta Lake。

    注意

    如果 Amazon Glue Studio 无法从您选择的 Amazon S3 文件夹或文件推断出架构,请选择其他选项来选择新的文件夹或文件。

    其他选项中,从架构推断下的以下选项中进行选择:

    • 让 Amazon Glue Studio 自动选择示例文件:Amazon Glue Studio 将在 Amazon S3 位置选择一个示例文件,以便推断出架构。在自动取样文件字段中,您可以查看自动选择的文件。

    • 从 Amazon S3 中选择示例文件:单击浏览 Amazon S3,选择要使用的 Amazon S3 文件。

  7. 单击推断架构。然后可以通过单击输出架构选项卡来查看输出架构。

在 Data Catalog 数据来源中使用 Delta Lake 框架

  1. 来源菜单中选择“Amazon Glue Studio Data Catalog”。

  2. 数据来源属性选项卡中,选择数据库和表。

  3. Amazon Glue Studio 将格式类型显示为 Delta Lake 和 Amazon S3 URL。

    注意

    如果尚未将 Delta Lake 来源注册为 Amazon Glue 数据目录表,则有两种选择:

    1. 为 Delta Lake 数据创建 Amazon Glue 爬网程序。有关更多信息,请参阅如何为 Delta Lake 数据存储指定配置选项

    2. 使用 Amazon S3 数据来源选择 Delta Lake 数据来源。请参阅 在 Amazon S3 数据来源中使用 Delta Lake 框架

在数据目标中使用 Delta Lake 格式

在 Data Catalog 数据目标中使用 Delta Lake 格式

  1. 目标菜单中选择“Amazon Glue Studio Data Catalog”。

  2. 数据来源属性选项卡中,选择数据库和表。

  3. Amazon Glue Studio 将格式类型显示为 Delta Lake 和 Amazon S3 URL。

在 Amazon S3 数据来源中使用 Delta Lake 格式

输入值或从可用选项中进行选择以配置 Delta Lake 格式。

  • 压缩类型:选择一种压缩类型选项:未压缩或 Snappy。

  • Amazon S3 目标位置:通过单击浏览 S3 来选择 Amazon S3 目标位置。

  • Data Catalog 更新选项:在 Glue Studio 可视化编辑器中,此格式不支持更新 Data Catalog。

    • Do not update the Data Catalog (请勿更新数据目录):(默认)如果您不希望任务更新数据目录(即使架构更改或添加了新分区),请选择此选项。

    • 要在 Amazon Glue 作业执行后更新 Data Catalog,请运行或计划 Amazon Glue 爬网程序。有关更多信息,请参阅如何为 Delta Lake 数据存储指定配置选项

  • 分区键:选择要在输出中用作分区键的列。要添加更多分区键,请选择 Add a partition key (添加分区键)

  • 可选择其他选项以输入键值对。例如,键值对可能为::timestampAsOf 和:2023-02-24 14:16:18。