Amazon Glue 数据质量 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Glue 数据质量

Amazon Glue 数据质量允许您衡量和监控数据的质量,从而做出正确的业务决策。 Amazon Glue Data Quality 建立在开源 DeeQu 框架之上,可提供托管的无服务器体验。 Amazon Glue 数据质量与数据质量定义语言 (DQDL) 配合使用,这是一种用于定义数据质量规则的特定领域语言。要了解有关 DQDL 和支持的规则类型的更多信息,请参阅 数据质量定义语言(DQDL)引用

有关产品详细信息和定价,请参阅 Amazon Glue Data Quality 服务页面。

优点和主要功能

Amazon Glue 数据质量的优势和主要特点包括:

  • 无服务器 — 无需安装、修补或维护。

  • 快速入门 — Amazon Glue 数据质量可快速分析您的数据并为您创建数据质量规则。只需点击两下即可开始:“创建数据质量规则 → 推荐规则”。

  • 检测数据质量问题-使用机器学习 (ML) 检测异常和 hard-to-detect 数据质量问题。

  • 即兴制定规则 — 从 25 多条 out-of-the-box DQ 规则开始,您可以创建适合自己特定需求的规则。

  • 评估质量并做出自信的业务决策 — 评估规则后,您将获得一个数据质量分数,该分数可以概述数据的运行状况。使用数据质量分数做出自信的业务决策。

  • 聚焦不良数据 — Amazon Glue 数据质量可帮助您识别导致质量分数下降的确切记录。轻松识别它们,对其进行隔离和修复。

  • 即用@@ 即付 — 无需年度许可证即可使用 Amazon Glue Data Quality。

  • 无锁定 — Amazon Glue 数据质量建立在开源之上 DeeQu,允许您保留以开放语言编写的规则。

  • 数据质量检查 — Amazon Glue 数据质量您可以对 ETL 管道Data Catalog和 Amazon Glue ETL 管道进行数据质量检查,从而管理静态和传输中的数据质量。

  • 基于 ML 的数据质量检测-使用机器学习 (ML) 检测异常和 hard-to-detect 数据质量问题。

工作方式

Amazon Glue 数据质量有两个切入点: Amazon Glue Data Catalog 和 Amazon Glue ETL 作业。本节概述了每个入口点支持的用例和 Amazon Glue 功能。

的数据质量 Amazon Glue Data Catalog

Amazon Glue 数据质量评估存储在中的对象。 Amazon Glue Data Catalog 它为非编码人员提供了一种设置数据质量规则的简便方法。这些角色包括数据管理员和业务分析师。

您可以为以下用例选择此选项:

  • 您想对已在 Amazon Glue Data Catalog中编目的数据集执行数据质量任务。

  • 您从事数据治理工作,需要持续识别或评估数据湖中的数据质量问题。

您可以使用以下界面管理 Data Catalog 的数据质量:

  • Amazon Glue 管理控制台

  • Amazon Glue API

要开始使用 “ Amazon Glue 数据质量”,请参 Amazon Glue Data Catalog 阅Amazon Glue Data Quality for the Data Catalog 入门

Amazon Glue ETL 作业的数据质量

Amazon Glue Amazon Glue ETL 作业的数据质量允许您主动执行数据质量任务。主动任务可帮助您在将数据集加载到数据湖之前识别并筛选出不良数据。

您可以针对以下用例为 ETL 作业选择数据质量:

  • 您想将数据质量任务整合到您的 ETL 作业中

  • 您想编写在 ETL 脚本中定义数据质量任务的代码

  • 您想管理可视化数据管道中流出的数据的质量

您可以使用以下界面管理适用于 ETL 作业的数据质量:

  • Amazon Glue Studio、 Amazon Glue Studio 笔记本和 Amazon Glue 交互式会话

  • Amazon Glue 用于 ETL 脚本的库

  • Amazon Glue API

要开始了解适用于 ETL 作业的数据质量,请参阅《Amazon Glue Studio 用户指南》中的 Tutorial: Getting started with Data Quality

将 Data Catalog 的数据质量与适用于 ETL 作业的数据质量进行比较

下表概述了每个 Amazon Glue 数据质量入口点支持的功能。

功能 Data Catalog 的数据质量 ETL 作业的数据质量
数据来源 Amazon S3、Amazon Redshift、与 Data Catalog 兼容的 JDBC 源以及交易数据湖格式,例如 Apache Iceberg、Apache Hudi 和 Delta Lake。请注意,如果 Amazon Lake Formation 管理表,则不支持 Iceberg、Delta 和 HUDI 表。 Amazon Athena 不支持编入目录 Amazon Glue Data Catalog 的视图。 支持的所有数据源 Amazon Glue,包括自定义连接器和第三方连接器。
数据质量规则建议 支持 不支持
编写并运行 DQDL 规则 支持 支持
自动扩缩 不支持 支持
Amazon Glue 弹性支持 不支持 支持
调度 在评估 Data Quality 规则时和通过 Step Functions 时支持。 使用 Step Functions 和工作流程时支持。
识别未通过数据质量检查的记录 不支持 支持
与 Amazon EventBridge 集成 支持 支持
与 Amazon 云监视集成 支持 支持
将数据质量结果写入 Amazon S3 支持 支持
增量数据质量 通过下推谓词支持 通过 Amazon Glue 书签支持
Amazon CloudFormation 支持 支持 支持
基于 ML 的异常检测 不支持 预览
动态规则 不支持 支持

注意事项

在使用 “ Amazon Glue 数据质量” 之前,请考虑以下事项:

术语

以下列表定义了与 Amazon Glue 数据质量相关的术语。

数据质量定义语言(DQDL)

一种特定于域的语言,可用于编写 Amazon Glue 数据质量规则。

要了解有关 DQDL 的更多信息,请参阅数据质量定义语言(DQDL)引用指南。

数据质量

描述数据集如何发挥其特定用途。 Amazon Glue 数据质量根据数据集评估规则以衡量数据质量。每条规则都检查特定特征,例如数据新鲜度或完整性。要量化数据质量,可以使用数据质量分数

数据质量分数

使用数据质量评估规则集时,通过(结果为真) Amazon Glue 的数据质量规则的百分比。

规则

DQDL 表达式,用于检查您的数据是否存在特定特征并返回布尔值。有关更多信息,请参阅 规则结构

分析器

用于收集数据统计信息的 DQDL 表达式。分析器收集数据统计信息,机器学习算法可以使用这些统计数据来检测一段时间内的异常和 hard-to-detect 数据质量问题。

规则集

一种包含一组数据质量规则的 Amazon Glue 资源。规则集必须与 Amazon Glue Data Catalog中的一个表格关联。保存规则集时, Amazon Glue 会为规则集分配一个 Amazon 资源名称(ARN)。

数据质量分数

当您使用 Amazon Glue 数据质量评估规则集时,通过(结果为真)的数据质量规则的百分比。

观测值

Amazon Glue 通过分析一段时间内从规则和分析器收集的数据统计信息得出的未经证实的见解。

Amazon Glue 数据质量发布说明

本主题介绍 Amazon Glue 数据质量中引入的功能。

正式上市:新功能

随着 “ Amazon Glue 数据质量” 的正式上市,将提供以下新功能:

  • 现在支持识别哪些记录未通过数据质量检查的功能 Amazon Glue Studio

  • 新的数据质量规则类型,例如验证两个数据集之间数据的引用完整性、比较两个数据集之间的数据以及数据类型检查

  • 改善了中的用户体验 Amazon Glue Data Catalog

  • 支持 Apache Iceberg、Apache Hudi 和 Delta Lake

  • 支持 Amazon Redshift

  • 使用 Amazon EventBridge 简化通知

  • Amazon CloudFormation 支持创建规则集

  • 性能改进:ETL 中的缓存选项以及 Amazon Glue Studio 评估数据质量时更快的性能

2023 年 11 月 27 日(预览版)

2024 年 3 月 12 日

  • 仅支持 NULL、BLANKS、WHITESPACES_ONLY 等关键词

  • 错误修复: ColumnValues 现在当行有 NULL 值时会失败

  • 评估复合规则的选项