注意事项和限制从 Athena 中查询 S3 表在 Athena 中创建 S3 表将 S3 表存储桶目录注册为 Athena 数据来源适用于 S3 表的 CTAS

通过 Athena 注册 S3 表存储桶目录和查询表

Amazon S3 表存储桶是 Amazon S3 中的一种存储桶类型，专门用于存储 Apache Iceberg 表中的表格数据。表存储桶可自动执行压缩、快照管理和垃圾回收等表管理任务，从而持续优化查询性能并尽可能降低成本。无论您是刚开始使用，还是已经在 Iceberg 环境中拥有数千个表，表存储桶都能简化任意规模的数据湖。有关更多信息，请参阅 Table Buckets。

注意事项和限制

Iceberg 表支持的所有 DDL 操作都支持 S3 表，但以下情况除外：
- 不支持 ALTER TABLE RENAME、CREATE VIEW 和 ALTER DATABASE。
- OPTIMIZE 和 VACUUM – 您可以在 S3 中管理压缩和快照管理。有关更多信息，请参阅 S3 表维护文档。
不支持对注册为 Athena 数据来源的 S3 表进行 DDL 查询。
不支持重复使用查询结果。
在启用了 SSE-KMS、CSE-KMS 加密的工作组中，您无法在 S3 表上运行 INSERT、UPDATE、DELETE 或 MERGE 之类的写入操作。
在启用了“S3 申请方付款”选项的工作组中，您无法在 S3 表上运行 DML 操作。

从 Athena 中查询 S3 表

在 Athena 中查询 S3 表之前，请完成以下前提步骤

创建一个 S3 表存储桶。有关更多信息，请参阅《Amazon Simple Storage Service 用户指南》中的 Creating a table bucket。
确保已成功将表存储桶与 Amazon Glue Data Catalog 集成。有关所需权限和设置步骤，请参阅《Amazon Glue 开发人员指南》中的 S3 表类数据存储服务集成的先决条件和启用 S3 表类数据存储服务与 Glue Data Catalog 的集成。
对于用于通过 Athena 运行查询的主体，请使用以下方法之一授予其对 S3 表类数据存储服务目录的权限：

选项 1：使用 IAM 权限

使用 IAM 访问控制时，您的主体需要同时拥有对 Amazon Glue Data Catalog 资源和 Amazon S3 表类数据存储服务资源的权限。

以下列表包含对 Athena 中的 S3 表类数据存储服务执行任何受支持的 DDL 或 DML 操作所需的所有 s3tables 权限：
- s3tables:GetTableBucket
- s3tables:GetNamespace
- s3tables:GetTable
- s3tables:GetTableData
- s3tables:PutTableData
- s3tables:ListNamespaces
- s3tables:ListTables
- s3tables:DeleteNamespace
- s3tables:DeleteTable
- s3tables:CreateNamespace
- s3tables:CreateTable
- s3tables:UpdateTableMetadataLocation
将这些权限应用于特定 S3 表存储桶和 S3 表资源，或者使用 * 作为资源来授予对您账户中所有表存储桶和表的访问权限。这些权限可以与 AmazonAthenaFullAccess 托管式策略结合使用，以实现完整的功能。

选项 2：使用 Lake Formation 权限

或者，要实现精细的访问控制，您可以通过 Lake Formation 控制台或 Amazon CLI 授予 Lake Formation 对 S3 表目录的权限。这需要将您的 S3 表存储桶注册为 Lake Formation 数据位置。有关更多信息，请参阅《Lake Formation 开发人员指南》中的在 Amazon Glue Data Catalog 中创建 Amazon S3 表类数据存储服务目录。
Amazon Web Services 管理控制台
以数据湖管理员身份登录 Amazon Lake Formation 控制台（地址为 https://console.amazonaws.cn/lakeformation/）。有关如何创建数据湖管理员的更多信息，请参阅 Create a data lake administrator。

在导航窗格中，选择数据权限，然后选择授予。

在授予权限页面的主体下，选择要用于从 Athena 提交查询的主体。

在 LF 标签或目录资源下，选择命名 Data Catalog 资源。

对于目录，请选择您通过集成表存储桶创建的 Glue 数据目录。例如，<accoundID>:s3tablescatalog/amzn-s3-demo-bucket。

对于目录权限，请选择超级。

选择授权。
Amazon CLI
使用 Lake Formation 数据湖管理员角色运行以下命令，以授予对您用于从 Athena 提交查询的主体的访问权限。
```
aws lakeformation grant-permissions \
--region <region (Example,us-east-1)> \
--cli-input-json \
'{
    "Principal": {
        "DataLakePrincipalIdentifier": "<user or role ARN (Example, arn:aws:iam::<Account ID>:role/ExampleRole>"
    },
    "Resource": {
        "Catalog": {
            "Id":"<Account ID>:s3tablescatalog/amzn-s3-demo-bucket"
        }
    },
    "Permissions": ["ALL"]
}'
```

提交对 S3 表的查询

使用上述获得授权的用户/角色从 Athena 提交 CREATE DATABASE 查询。在此示例中，s3tablescatalog 是通过集成创建的父级 Glue 数据目录，s3tablescatalog/amzn-s3-demo-bucket 是为每个 S3 表存储桶创建的子 Glue 数据目录。查询的方法有两种。
Option 1
直接从控制台或 Amazon CLI 指定子 Glue 数据目录（s3tablescatalog/amzn-s3-demo-bucket）。

使用 Amazon Web Services 管理控制台
从 https://console.aws.amazon.com/athena/ 打开 Athena 控制台。

在左侧导航栏中，对于数据来源名称，选择 AwsDataCatalog。

对于目录，选择 s3tablescatalog/amzn-s3-demo-bucket。

在查询编辑器中，输入类似于 CREATE DATABASE test_namespace 的查询。
使用 Amazon CLI

运行如下命令。
```
aws athena start-query-execution \ 
--query-string 'CREATE DATABASE `test_namespace`' \ 
--query-execution-context '{"Catalog": "s3tablescatalog/amzn-s3-demo-bucket"}' \
--work-group "primary"
```
Option 2

通过 Athena 控制台从子 Glue 数据目录创建 Athena 数据目录，并在查询中将其指定为目录。有关更多信息，请参阅将 S3 表存储桶目录注册为 Athena 数据来源。

通过您在上一步中创建的数据库，使用 CREATE TABLE 创建表。以下示例将在您先前于 s3tablescatalog/amzn-s3-demo-bucket Glue 目录中创建的 test_namespace 数据库中创建一个表。

将数据插入您在之前的步骤中创建的表。

向表中插入数据后，您可以对其进行查询。

在 Athena 中创建 S3 表

Athena 支持在现有的 S3 表命名空间或使用 CREATE DATABASE 语句在 Athena 中创建的命名空间中创建表。要从 Athena 创建 S3 表，语法要与创建常规 Iceberg 表时的语法相同，只是无需指定 LOCATION，如以下示例所示。


CREATE TABLE
[db_name.]table_name (col_name data_type [COMMENT col_comment] [, ...] )
[PARTITIONED BY (col_name | transform, ... )]
[TBLPROPERTIES ([, property_name=property_value] )]

您也可以使用 CREATE TABLE AS SELECT（CTAS）语句创建 S3 表。有关更多信息，请参阅适用于 S3 表的 CTAS。

将 S3 表存储桶目录注册为 Athena 数据来源

要通过 Athena 控制台注册 S3 表存储桶目录，请执行以下步骤。

从 https://console.aws.amazon.com/athena/ 打开 Athena 控制台。
在导航窗格中，选择数据来源和目录。
在数据来源和目录页面上，选择创建数据来源。
在选择数据来源中，选择 Amazon S3 - Amazon Glue Data Catalog。
在 Amazon Glue Data Catalog 部分中，对于数据来源账户，选择此账户中的 Amazon Glue Data Catalog。
对于创建表或注册目录，请选择注册新 Amazon Glue 目录。
在数据来源详细信息部分中，对于数据来源名称，请输入用于在 SQL 查询中指定数据来源的名称，或者使用生成的默认名称。
对于目录，选择浏览来搜索同一账户中的 Amazon Glue 目录列表。如果看不到任何现有目录，请通过 Amazon Glue 控制台创建一个。
在浏览 Amazon Glue 目录对话框中，选择要使用的目录，然后选中选择。
（可选）对于标签，输入要与该数据来源关联的键值对。
选择下一步。
在检查并创建页面上，验证输入的信息是否正确，然后选择创建数据来源。

适用于 S3 表的 CTAS

Amazon Athena 现在支持对 S3 表执行 CREATE TABLE AS SELECT（CTAS）操作。此功能允许您根据 SELECT 查询的结果创建新的 S3 表。

在为 S3 表创建 CTAS 查询时，与标准 Athena 表相比，有一些重要的区别：

您必须省略位置属性，因为 S3 表会自动管理自己的存储位置。
table_type 属性的默认值为 ICEBERG，因此您无需在查询中显式指定该属性。
如果您不指定格式，系统将自动使用 PARQUET 作为数据的默认格式。
所有其他属性都遵循与常规 Iceberg 表相同的语法。

在使用 CTAS 创建 S3 表类数据存储服务之前，请确保您已在 IAM 或 Amazon Lake Formation 中配置必要的权限。具体而言，您需要在 S3 表目录中创建表的权限。如果没有这些权限，您的 CTAS 操作将失败。

注意

如果您的 CTAS 查询失败，您可能需要先使用 S3 表 API 删除表，然后再尝试重新运行查询。您无法使用 Athena DROP TABLE 语句删除由该查询部分创建的表。

示例


CREATE TABLE "s3tablescatalog/amzn-s3-demo-bucket"."namespace"."s3-table-name"
WITH (
    format = 'PARQUET'
)
AS SELECT *
FROM source_table;

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

注册联合目录

在 Athena 中查询 Amazon Glue 数据目录