使用 Amazon Glue Studio 评估数据质量 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

使用 Amazon Glue Studio 评估数据质量

Amazon Glue 数据质量可根据您定义的规则评估和监控您的数据质量。这样可以轻松识别需要操作的数据。在 Amazon Glue Studio 中,您可以向可视化作业中添加数据质量节点,以便为数据目录中的表创建数据质量规则。然后,您可以监控和评估数据集随着时间的推移而发生的变化。有关如何在 Amazon Glue 中使用 Amazon Glue Studio Data Quality 的概述,请观看以下视频。

以下是有关如何操作 Amazon Glue 数据质量的总体步骤:

  1. Create data quality rules(创建数据质量规则)— 通过选择您配置的内置规则集,使用 DQDL 生成器构建一组数据质量规则。

  2. Configure a data quality job(配置数据质量作业)— 根据数据质量结果和输出选项定义操作。

  3. 保存并运行数据质量作业 — 创建和运行作业。保存作业将保存您为该作业创建的规则集。

  4. Monitor and review the data quality results(监控和查看数据质量结果)— 在作业运行完成后查看数据质量结果。(可选)将作业安排在未来的某个日期运行。

优势

数据分析师、数据工程师和数据科学家可以使用 Amazon Glue Studio 中的评估数据质量节点来分析、配置、监控和提高可视化作业编辑器中的数据质量。使用数据质量节点的好处包括:

  • 您可以检测数据质量问题 — 您可以通过创建一些规则来检查数据集特征来查看是否存在问题。

  • 轻松上手 — 您可以从预先构建的规则和操作开始。

  • 紧密集成 — 您可以使用 Amazon Glue Studio 中的数据质量节点,因为 Amazon Glue Data Quality 是基于 Amazon Glue Data Quality 运行的。