Amazon Glue Data Quality(预览版) - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Glue Data Quality(预览版)

Amazon Glue Data Quality 目前处于 Amazon Glue 的预览版阶段,可能会发生变化。在部分地区,此预览版功能已在您的账户中启用:
  • 美国东部(俄亥俄州)

  • 美国东部(弗吉尼亚北部)

  • 美国西部(俄勒冈州)

  • 亚太地区(东京)

  • 欧洲(爱尔兰)

  • 南美洲(圣保罗)

Amazon GlueData Quality 建立在开源 Frequality DeeQu 框架之上,提供托管的无服务器体验,可帮助您评估和监控数据质量。本节介绍如何将 Amazon Glue Data Quality 与数据目录配合使用。要了解 Amazon Glue Studio 的 Amazon Glue Data Quality,请参阅使用 Amazon Glue Studio 评估数据质量

有关亮点、其他产品详细信息和定价,请参阅 Amazon Glue Data QuaQuality 服务页面。

工作原理

您可以使用以下高级步骤开始使用 Amazon Glue Data Quality。

  1. 从推荐的数据质量规则开始 — Amazon Glue Data Quality 计算数据的统计数据,然后推荐一组数据质量规则,以便您可以快速入门。这些规则检查数据质量维度,例如数据准确性、新鲜度和完整性。您可以调整推荐的规则或编写自己的规则。

  2. 运行数据质量任务 — 通过运行数据质量任务,分析、识别数据质量问题并采取措施。数据质量任务根据您的数据评估规则。您还可以评估 ETL 作业中的数据质量规则。

  3. 监控和审核数据质量结果 — 使用 Amazon Glue Data Quality 查看数据质量任务的结果。运行数据质量任务时,Amazon Glue Data Quality 会计算数据质量分数。您可以使用此分数来采取行动或决定数据集是否适合使用。Amazon GlueData Quality 还提供了向 Amazon 发布数据质量指标的选项 CloudWatch。

注意事项

在使用 Amazon Glue Data Quality(预览版)之前,请考虑以下各项。

  • 在以下 Amazon Web Services 区域 中提供 Amazon Glue Data Quality(预览版):

    • 美国东部(俄亥俄州)

    • 美国东部(弗吉尼亚北部)

    • 美国西部(俄勒冈州)

    • 亚太地区(东京)

    • 欧洲(爱尔兰)

    • 南美洲(圣保罗)

  • Amazon Glue Data Catalog 的 Amazon Glue Data Quality 目前适用于 Amazon S3 来源。

  • 对于 ETL 作业,Amazon Glue 数据质量适用于 Amazon Glue 3.0。不支持其他 Amazon Glue 版本。

  • 数据质量规则无法评估嵌套或列表类型的数据源。

术语

下表定义了与 Amazon Glue Data Quality 相关的术语。

数据质量定义语言(DQDL)

一种特定领域的语言,可用于编写 Amazon Glue Data Quality 规则。

要了解有关 DQDL 的更多信息,请参阅数据质量定义语言(DQDL)指南。

数据质量

描述数据集在多大程度上发挥其特定用途。Amazon GlueData Quality 根据数据集评估规则以衡量数据质量。每条规则都检查特定特征,例如数据新鲜度或完整性。要量化数据质量,可以使用数据质量分数

数据质量分数

当您使用 Amazon Glue 数据质量评估规则集时,通过(结果为真)的数据质量规则的百分比。

规则

DQDL 表达式,用于检查您的数据是否存在特定特征并返回布尔值。有关更多信息,请参阅规则结构

规则集

一种包含一组数据质量规则的 Amazon Glue 资源。规则集必须与 Amazon Glue Data Catalog 中的一个表格关联。保存规则集时,Amazon Glue 会为规则集分配一个 Amazon 资源名称(ARN)。