

# 在 Amazon Glue Studio 中使用 Delta Lake 框架
<a name="gs-data-lake-formats-delta"></a>

## 在数据来源中使用 Delta Lake 框架
<a name="gs-data-lake-formats-delta-source"></a>

### 在 Amazon S3 数据来源中使用 Delta Lake 框架
<a name="gs-data-lake-formats-delta-lake-s3-data-source"></a>

1.  从“来源”菜单中选择 Amazon S3。

1.  如果您选择 Data Catalog 表作为 Amazon S3 来源类型，请选择数据库和表。

1.  Amazon Glue Studio 显示格式为 Delta Lake 和 Amazon S3 URL。

1.  选择**其他选项**以输入键值对。例如，键值对可能为：**键**：timestampAsOf 和**值**：2023-02-24 14:16:18。  
![\[屏幕截图显示了 Amazon S3 数据来源节点的数据来源属性选项卡中的其他选项部分。\]](http://docs.amazonaws.cn/glue/latest/dg/images/data_lake_formats_additional_options.png)

1.  如果您选择 Amazon S3 位置作为 **Amazon S3 来源类型**，请通过单击**浏览 Amazon S3** 选择 Amazon S3 URL。

1.  在**数据格式**中，选择 Delta Lake。
**注意**  
 如果 Amazon Glue Studio 无法从您选择的 Amazon S3 文件夹或文件推断出架构，请选择**其他选项**来选择新的文件夹或文件。  
 在**其他选项**中，从**架构推断**下的以下选项中进行选择：  
 让 Amazon Glue Studio 自动选择示例文件：Amazon Glue Studio 将在 Amazon S3 位置选择一个示例文件，以便推断出架构。在**自动取样文件**字段中，您可以查看自动选择的文件。
 从 Amazon S3 中选择示例文件：单击**浏览 Amazon S3**，选择要使用的 Amazon S3 文件。

1.  单击**推断架构**。然后可以通过单击**输出架构**选项卡来查看输出架构。

### 在 Data Catalog 数据来源中使用 Delta Lake 框架
<a name="gs-data-lake-formats-delta-catalog"></a>

1.  从**来源**菜单中选择“Amazon Glue Studio Data Catalog”。

1.  在**数据来源属性**选项卡中，选择数据库和表。

1.  Amazon Glue Studio 将格式类型显示为 Delta Lake 和 Amazon S3 URL。
**注意**  
 如果尚未将 Delta Lake 来源注册为 Amazon Glue 数据目录表，则有两种选择：  
 为 Delta Lake 数据创建 Amazon Glue 爬网程序。有关更多信息，请参阅[如何为 Delta Lake 数据存储指定配置选项](https://docs.amazonaws.cn/glue/latest/dg/crawler-configuration.html#crawler-delta-lake)。
 使用 Amazon S3 数据来源选择 Delta Lake 数据来源。请参阅[在 Amazon S3 数据来源中使用 Delta Lake 框架](#gs-data-lake-formats-delta-lake-s3-data-source)。

## 在数据目标中使用 Delta Lake 格式
<a name="gs-data-lake-formats-delta-target"></a>

### 在 Data Catalog 数据目标中使用 Delta Lake 格式
<a name="gs-data-lake-formats-delta-target-catalog"></a>

1.  从**目标**菜单中选择“Amazon Glue Studio Data Catalog”。

1.  在**数据来源属性**选项卡中，选择数据库和表。

1.  Amazon Glue Studio 将格式类型显示为 Delta Lake 和 Amazon S3 URL。

### 在 Amazon S3 数据来源中使用 Delta Lake 格式
<a name="gs-data-lake-formats-delta-target-s3"></a>

 输入值或从可用选项中进行选择以配置 Delta Lake 格式。
+  **压缩类型**：选择一种压缩类型选项：未压缩或 Snappy。
+  **Amazon S3 目标位置**：通过单击**浏览 S3** 来选择 Amazon S3 目标位置。
+  **Data Catalog 更新选项**：在 Glue Studio 可视化编辑器中，此格式不支持更新 Data Catalog。
  +  Do not update the Data Catalog (请勿更新数据目录)：（默认）如果您不希望任务更新数据目录（即使架构更改或添加了新分区），请选择此选项。
  +  要在 Amazon Glue 作业执行后更新 Data Catalog，请运行或计划 Amazon Glue 爬网程序。有关更多信息，请参阅[如何为 Delta Lake 数据存储指定配置选项](https://docs.amazonaws.cn/glue/latest/dg/crawler-configuration.html#crawler-delta-lake)。
+  **分区键**：选择要在输出中用作分区键的列。要添加更多分区键，请选择 **Add a partition key (添加分区键)**。
+  可选择**其他选项**以输入键值对。例如，键值对可能为：**键**：timestampAsOf 和**值**：2023-02-24 14:16:18。