Delta Lake 简介 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Delta Lake 简介

Delta Lake 是一个开源项目,可帮助实施通常构建在 Amazon S3 上的现代数据湖架构。Delta Lake 提供以下功能:

  • Spark 上的原子、一致、隔离、持久(ACID)事务。在 Spark 作业期间,读者可以看到一致的表格视图。

  • 可扩展的元数据处理,由 Spark 进行分布式处理。

  • 使用相同的 Delta 表结合流处理和批处理使用案例。

  • 强制执行自动架构以避免数据摄取期间出现错误记录。

  • 使用数据版本控制进行时空旅行。

  • 支持合并、更新和删除操作,以支持复杂的使用案例,例如更改数据捕获(CDC)、流插入等等。