创建和使用 Amazon Glue DataBrew 剖析作业 - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

创建和使用 Amazon Glue DataBrew 剖析作业

剖析作业对数据集运行一系列评估,并将结果输出到 Amazon S3。数据剖析收集的信息可帮助您了解自己的数据集,并决定在配方作业中可能需要运行哪种数据准备步骤。

运行剖析作业最简单的方法是使用默认 DataBrew 设置。您可以在运行剖析作业之前对其进行配置,使其仅返回您想要的信息。

使用以下过程创建 DataBrew 剖析作业。

创建剖析作业
  1. 登录到 Amazon Web Services 管理控制台并打开 DataBrew 控制台,网址:https://console.aws.amazon.com/databrew/

  2. 从导航窗格中选择作业,选择剖析作业选项卡,然后选择创建作业

  3. 输入作业的名称,然后选择创建一个剖析作业

  4. 对于作业输入,提供要剖析的数据集的名称。

  5. (可选)在数据剖析配置窗格上配置以下各项:

    • 数据集级别配置:为数据集中所有列的剖析作业配置详细信息。

      或者,您可以打开检测数据集中的重复行并对其进行计数的功能。您也可以选择启用相关性矩阵,然后选择列,以查看多列中值的相关程度。有关可在数据集级别配置的统计信息的详细信息,请参阅数据集级别的可配置统计信息。您可以在 DataBrew 控制台上配置统计信息,也可以使用 DataBrew API 或 Amazon SDK 进行配置。

    • 列级配置:使用原定设置的剖析配置设置,您可以选择要包含在剖析作业中的列。使用添加配置覆盖可选择要对其限制收集的统计信息数的列,或者覆盖某些统计信息的原定设置配置。有关可以在列级别配置的统计信息的详细信息,请参阅列级别的可配置统计信息。您可以在 DataBrew 控制台上配置统计信息,也可以使用 DataBrew API 或 Amazon SDK 进行配置。

      请确保您指定的任何配置覆盖都应用于您在剖析作业中包含的列。如果您为列配置的不同覆盖之间存在冲突,则最后一个冲突覆盖具有优先级。

  6. (可选)您可以创建数据质量规则并应用与此数据集关联的其他规则集,也可以移除已应用的规则集。有关数据质量的更多信息,请参阅验证 Amazon Glue DataBrew 中的数据质量

  7. 高级作业设置窗格上,您可以针对作业运行方式选择更多选项:

    • 最大单位数:DataBrew 使用并行运行的多个计算节点处理作业。默认节点数为 5。最大节点数为 149。

    • 作业超时:如果作业运行时间超过您在此处设置的分钟数,则该作业将失败并显示超时错误。默认值为 2880 分钟(48 小时)。

    • 重试次数:如果作业在运行时失败,DataBrew 可以再次尝试运行该作业。默认情况下,不会重试作业。

    • 为作业启用 Amazon CloudWatch Logs:允许 DataBrew 向 CloudWatch Logs 发布诊断信息。这些日志可用于故障排除或获取有关如何处理作业的更多详细信息。

  8. 对于关联的计划,您可以应用 DataBrew 作业计划,以便您的作业在特定时间运行,或者定期运行。有关更多信息,请参阅 按计划自动运行作业

  9. 根据需要进行设置后,选择创建作业。或者,如果您想立即运行作业,请选择创建并运行作业