使用 Amazon Data Firehose 将数据库更改复制到 Apache 冰山表 - Amazon Data Firehose
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon Data Firehose 将数据库更改复制到 Apache 冰山表

注意

Amazon Web Services 区域中国地区和亚太地区(马来西亚)外,Firehose 在所有地区都支持数据库作为来源。 Amazon GovCloud (US) Regions此功能为预览版,可能会发生变化。请勿将其用于生产工作负载。

Organizations 使用关系数据库来存储和检索交易数据,这些数据经过优化,可以非常快速地同时与一行或几行数据进行交互。它们未针对查询大型聚合数据集进行优化。Organizations 将交易数据从关系数据库转移到分析数据存储,例如数据湖、数据仓库以及其他用于分析和机器学习用例的工具。为了使分析数据存储与关系数据库保持同步,使用了一种名为变更数据捕获 (CDC) 的设计模式,该模式可以实时捕获数据库的所有更改。当在源数据库中通过 INSERT、UPDATE 或 DELETE 更改数据时,必须持续流式传输这些 CDC 更改,而不会影响数据库的性能。

Firehose 提供了一种有效的 easy-to-use end-to-end解决方案,可以将更改从 MySQL 和 PostgreSQL 数据库复制到 Apache Iceberg Tables 中。借助此功能,Firehose 允许您选择希望 Firehose 在 CDC 事件中捕获的特定数据库、表和列。如果你还没有 Iceberg Tables,你可以选择 Firehose 来创建 Iceberg Tables。Firehose 使用与关系数据库表相同的架构创建数据库和表。创建流后,Firehose 会获取表中数据的初始副本,然后写入 Apache Iceberg Tables。初始副本完成后,Firehose 开始近乎连续地捕获数据库中疾病预防控制中心的实时更改,并将其复制到 Apache Iceberg Tables 中。如果您选择架构演进,Firehose 会根据您在关系数据库中的架构更改来改进 Iceberg 表架构。

Firehose 还可以将更改从 MySQL 和 PostgreSQL 数据库复制到亚马逊 S3 表。Amazon S3 表格提供针对大规模分析工作负载进行了优化的存储,其功能可持续提高查询性能并降低表格数据的存储成本。借助对 Apache Iceberg 的内置支持,您可以使用包括亚马逊 Athena、Amazon Redshift 和 Apache Spark 在内的热门查询引擎在 Amazon S3 中查询表格数据。有关 Amazon S3 表格的更多信息,请参阅亚马逊 S3 表

对于亚马逊 S3 表,Firehose 不支持自动创建表。在创建 Firehose 直播之前,您必须创建 S3 表。