使用 Amazon S3 表类数据存储服务和表存储桶
Amazon S3 表类数据存储服务提供针对分析工作负载进行优化的 S3 存储,其功能旨在持续提高查询性能并降低表的存储成本。S3 表类数据存储服务专为存储表数据而设计,例如每日购买交易、流传感器数据或广告展示次数。表数据以列和行表示数据,就像在数据库表中一样。
S3 表类数据存储服务中的数据存储在新的存储桶类型中:表存储桶,它将表存储为子资源。表存储桶支持以 Apache Iceberg 格式存储表。使用标准 SQL 语句,您可以通过支持 Iceberg 的查询引擎来查询表,例如 Amazon Athena、Amazon Redshift 和 Apache Spark。
主题
S3 表类数据存储服务的功能
- 专为表设计的存储
-
S3 表存储桶是专门为表设计的。与 S3 通用存储桶中的自行管理的表相比,表存储桶可提供更高的每秒事务数(TPS)和更好的查询吞吐量。表存储桶具有与其它 Amazon S3 存储桶类型相同的耐久性、可用性和可扩展性。
- 对 Apache Iceberg 的内置支持
-
表存储桶中的表以 Apache Iceberg
格式存储。您可以在支持 Iceberg 的查询引擎中使用标准 SQL 查询这些表。Iceberg 具有多种优化查询性能的功能,包括架构演变和分区演进。 借助 Iceberg,您可以更改数据的组织方式,使其能够随着时间推移而演变,而无需重写查询或重建数据结构。Iceberg 旨在通过其对事务的支持来协助确保数据一致性和可靠性。为了有助于更正问题或执行时空旅行查询,您可以跟踪数据如何随时间变化和回滚到历史版本。
- 自动表优化
-
为了优化您的表以进行查询,S3 会持续执行自动维护操作,例如压缩、快照管理和未引用文件移除。这些操作通过将较小的对象压缩成更少、更大的文件来提高表性能。维护操作还可以通过清理未使用的对象来降低存储成本。这种自动维护通过减少对手动表维护的需求,大规模简化了数据湖的运营。对于每个表和表存储桶,您可以自定义维护配置。
- 访问管理和安全性
-
您可以在 Amazon Organizations 中使用 Amazon Identity and Access Management(IAM)和 Service Control Policies 来管理对表存储桶和单个表的访问权限。S3 表类数据存储服务使用的服务命名空间与 Amazon S3 不同:s3tables 命名空间。因此,可以专门为 S3 表类数据存储服务及其资源设计策略。可以设计策略来授予对单个表、表命名空间内的所有表或整个表存储桶的访问权限。所有 Amazon S3 屏蔽公共访问权限设置均始终为表存储桶启用,无法禁用。
- 与 Amazon 分析服务集成
-
可以通过 S3 控制台自动将 Amazon S3 表存储桶与 Amazon SageMaker 智能湖仓集成。这种集成支持 Amazon 分析服务通过 Amazon Glue Data Catalog 自动发现和访问表数据。集成后,可以使用诸如 Amazon Athena、Amazon Redshift、QuickSight 等分析服务来处理您的表。有关集成工作原理的更多信息,请参阅将 Amazon S3 表类数据存储服务与 Amazon 分析服务结合使用。
相关服务
可以将以下 Amazon Web Services 服务 与 S3 表类数据存储服务结合使用,来支持您的特定分析应用程序。
-
Amazon Athena:Athena 是一种交互式查询服务,可用于通过使用标准 SQL 直接分析 Amazon S3 中的数据。还可以使用 Athena,通过 Apache Spark 以交互方式运行数据分析,而无需规划、配置或管理资源。在 Athena 上运行 Apache Spark 应用程序时,您需要提交 Spark 代码以供处理并直接接收结果。
-
Amazon Glue:Amazon Glue 是一项无服务器数据集成服务,可让您轻松发现、准备、移动和集成来自多个来源的数据。可以使用 Amazon Glue 进行分析、机器学习(ML)和应用程序开发。Amazon Glue 还包括用于编写、运行任务和实施业务工作流程的额外生产率和数据操作工具。
-
Amazon EMR:Amazon EMR 是一个托管式集群平台,可简化在 Amazon 上运行大数据框架(如 Apache Hadoop 和 Apache Spark)来处理和分析海量数据的过程。
-
Amazon Redshift:Amazon Redshift 是一项 PB 级云中数据仓库服务。可以使用 Amazon Redshift Serverless 来访问和分析数据,而无需对预置数据仓库执行所有配置操作。系统将自动预置资源,数据仓库的容量会智能扩展,即使面对要求最为苛刻且不可预测的工作负载也能提供高速性能。数据仓库空闲时不会产生费用,您只需为实际使用的资源付费。您可以在 Amazon Redshift 查询编辑器 v2 或您最喜欢的商业智能(BI,Business Intelligence)工具中,直接加载数据并开始查询。
-
QuickSight:QuickSight 是一项业务分析服务,可用于构建可视化内容,执行临时分析,并快速从您的数据中获得业务见解。QuickSight 无缝地发现 Amazon 数据来源,并通过使用 QuickSight 超快、并行、内存、计算引擎(SPICE)提供快速的响应式查询性能。
-
Amazon Lake Formation:Lake Formation 是一项托管式服务,可简化设置、保护和管理数据湖的流程。Lake Formation 可帮助您探索数据来源,然后对数据进行编目、清理和转换。借助 Lake Formation,可以对 Amazon S3 上的数据湖数据及其在 Amazon Glue Data Catalog 中的元数据进行精细访问控制。