本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon Glue Data Quality(预览版)
Amazon Glue Data Quality 目前处于 Amazon Glue 的预览版阶段,可能会发生变化。在部分地区,此预览版功能已在您的账户中启用:
|
Amazon GlueData Quality 建立在开源 Frequality DeeQu 框架之上,提供托管的无服务器体验,可帮助您评估和监控数据质量。本节介绍如何将 Amazon Glue Data Quality 与数据目录配合使用。要了解 Amazon Glue Studio 的 Amazon Glue Data Quality,请参阅使用 Amazon Glue Studio 评估数据质量。
有关亮点、其他产品详细信息和定价,请参阅 Amazon Glue Data QuaQuality
工作原理
您可以使用以下高级步骤开始使用 Amazon Glue Data Quality。
-
从推荐的数据质量规则开始 — Amazon Glue Data Quality 计算数据的统计数据,然后推荐一组数据质量规则,以便您可以快速入门。这些规则检查数据质量维度,例如数据准确性、新鲜度和完整性。您可以调整推荐的规则或编写自己的规则。
-
运行数据质量任务 — 通过运行数据质量任务,分析、识别数据质量问题并采取措施。数据质量任务根据您的数据评估规则。您还可以评估 ETL 作业中的数据质量规则。
-
监控和审核数据质量结果 — 使用 Amazon Glue Data Quality 查看数据质量任务的结果。运行数据质量任务时,Amazon Glue Data Quality 会计算数据质量分数。您可以使用此分数来采取行动或决定数据集是否适合使用。Amazon GlueData Quality 还提供了向 Amazon 发布数据质量指标的选项 CloudWatch。
注意事项
在使用 Amazon Glue Data Quality(预览版)之前,请考虑以下各项。
-
在以下 Amazon Web Services 区域 中提供 Amazon Glue Data Quality(预览版):
-
美国东部(俄亥俄州)
-
美国东部(弗吉尼亚北部)
-
美国西部(俄勒冈州)
-
亚太地区(东京)
-
欧洲(爱尔兰)
-
南美洲(圣保罗)
-
-
Amazon Glue Data Catalog 的 Amazon Glue Data Quality 目前适用于 Amazon S3 来源。
-
对于 ETL 作业,Amazon Glue 数据质量适用于 Amazon Glue 3.0。不支持其他 Amazon Glue 版本。
-
数据质量规则无法评估嵌套或列表类型的数据源。
术语
下表定义了与 Amazon Glue Data Quality 相关的术语。
- 数据质量定义语言(DQDL)
-
一种特定领域的语言,可用于编写 Amazon Glue Data Quality 规则。
要了解有关 DQDL 的更多信息,请参阅数据质量定义语言(DQDL)指南。
- 数据质量
-
描述数据集在多大程度上发挥其特定用途。Amazon GlueData Quality 根据数据集评估规则以衡量数据质量。每条规则都检查特定特征,例如数据新鲜度或完整性。要量化数据质量,可以使用数据质量分数。
- 数据质量分数
-
当您使用 Amazon Glue 数据质量评估规则集时,通过(结果为真)的数据质量规则的百分比。
- 规则
-
DQDL 表达式,用于检查您的数据是否存在特定特征并返回布尔值。有关更多信息,请参阅规则结构:
- 规则集
-
一种包含一组数据质量规则的 Amazon Glue 资源。规则集必须与 Amazon Glue Data Catalog 中的一个表格关联。保存规则集时,Amazon Glue 会为规则集分配一个 Amazon 资源名称(ARN)。