配置异常检测并生成见解 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

配置异常检测并生成见解

Amazon Glue 数据质量自动监测功能(DQ)根据您编写的数据质量规则评估您的数据,并提供有关数据随时间变化的见解和观测值,以便您可以立即采取行动。由于 DQ 会扫描您的数据,因此 DQ 会计算统计指标,例如行数、最大值或最小值,然后将其与阈值表达式进行比较。

数据质量异常检测的一些好处包括:

  • 持续自动扫描数据

  • 检测可能表明意外事件或统计异常的异常

  • 提供规则建议,以便对数据质量异常检测发现的观测值采取措施

这在以下情况下时很有用:

  • 您想要自动检测数据中的异常情况,而无需写入数据质量

  • 您想要分析自己的数据并查看数据外观的直观表现

  • 您想要跟踪自己的数据如何随着时间的推移而变化

我可以查看有关我的数据的哪些观测值?

DQ 可识别收集的数据统计信息中的异常值、数据格式变化、数据漂移和架构更改。根据观察,DQ 推荐了用户可以轻松操作的数据质量规则。统计数据包括完整性、唯一性、均值、总和 StandardDeviation、熵和。 DistinctValuesCount UniqueValueRatio

在 Amazon Glue Studio 中启用异常检测

要启用异常检测,您可以打开 Amazon Glue Studio 并开启“启用异常检测”。启用此功能后,您可以分析一段时间内的数据,并提供有关数据和观测值的数据统计信息,来对您的数据进行异常检测。

在 Amazon Glue Studio 中启用异常检测:
  1. 在作业中选择数据质量节点,然后选择异常检测选项卡。开启“启用异常检测”。

    屏幕截图显示了开启“启用异常检测”的开关。
  2. 通过选择添加分析器来定义要监测异常情况的数据。您可以填充两个字段:“统计信息”和“数据”。

    统计信息是有关数据形状和其他属性的信息。您可以一次选择一个或多个统计信息,也可以选择所有统计信息。统计数据包括:完整性、唯一性、均值、总和 StandardDeviation、熵和。 DistinctValuesCount UniqueValueRatio

    数据是数据集中的列。您可以选择所有列或单个列。

    屏幕截图显示了“统计信息”和“数据”字段。您可以选择要将哪些统计信息应用于您的数据集以及应用于哪些列。
  3. 选择添加异常检测范围,以保存您的更改。创建分析器后,可在异常检测范围部分中看到它们。

    您也可以使用操作菜单编辑分析器,或者选择规则集编辑器选项卡,直接在规则集编辑器记事本中编辑分析器。您将在自己创建的所有规则下方看到您保存的分析器。

    Rules = [ ] Analyzers = [ Completeness “id” ]

    借助更新的规则集和分析器,数据质量自动监测功能可以持续监测传入的数据,并根据您的设置通过警报或任务停止发出异常信号。

注意

当在数据集中观察到每个数据统计信息至少有三个值时,就会生成观测值。如果没有显示观测值,则数据质量自动监测功能没有足够的数据来生成观测值。经过几次作业运行后,数据质量自动监测功能便可提供对您的数据的见解,并在“观测值”部分中显示这些见解。

分析器通过检测数据中的异常生成观测值,并为您提供逐步构建规则的建议。您可以通过选择“数据质量”选项卡查看观测值。观测值特定于每个作业运行。您可以在“观测值”部分的顶部查看特定的数据质量节点和作业运行。选择新的节点或作业运行以查看特定于该节点和作业的观测值。

屏幕截图显示了作业的“数据质量”选项卡以及为作业运行显示的观测值。

观测值 - 每个见解都基于由您指定的规则集和分析器配置的特定作业运行。

相关指标 - 生成观测值时,“相关指标”列会显示规则、实际值和预期值以及下限和上限。

规则建议 – Amazon Glue 随后还会推荐解决这个问题的规则。通过单击复制图标可以复制每条推荐的规则。您可以通过单击每条规则旁边的复制图标,然后单击应用复制的规则来复制所有推荐的规则。

监测的数据 -“监测的数据”列提供已监测并触发观测值的列或行。

生成观测值并提供推荐规则后,您可以将该规则应用于您的数据质量节点。要实现此目的,应按照以下步骤进行:

  1. 单击每条规则建议旁边的复制图标。这会将规则建议添加到记事本中,可供您稍后检索。

  2. 单击应用规则建议。此操作将打开记事本,您可以在其中查看之前复制的规则。

  3. 选择复制规则

  4. 选择应用于规则集编辑器。此操作将打开规则集编辑器,您可在其中粘贴复制的规则。

  5. 将复制的规则粘贴到规则集编辑器中。