创建和使用 Amazon Glue DataBrew 剖析作业
剖析作业对数据集运行一系列评估,并将结果输出到 Amazon S3。数据剖析收集的信息可帮助您了解自己的数据集,并决定在配方作业中可能需要运行哪种数据准备步骤。
运行剖析作业最简单的方法是使用默认 DataBrew 设置。您可以在运行剖析作业之前对其进行配置,使其仅返回您想要的信息。
使用以下过程创建 DataBrew 剖析作业。
创建剖析作业
登录到 Amazon Web Services 管理控制台并打开 DataBrew 控制台,网址:https://console.aws.amazon.com/databrew/。
从导航窗格中选择作业,选择剖析作业选项卡,然后选择创建作业。
-
输入作业的名称,然后选择创建一个剖析作业。
对于作业输入,提供要剖析的数据集的名称。
(可选)在数据剖析配置窗格上配置以下各项:
-
数据集级别配置:为数据集中所有列的剖析作业配置详细信息。
或者,您可以打开检测数据集中的重复行并对其进行计数的功能。您也可以选择启用相关性矩阵,然后选择列,以查看多列中值的相关程度。有关可在数据集级别配置的统计信息的详细信息,请参阅数据集级别的可配置统计信息。您可以在 DataBrew 控制台上配置统计信息,也可以使用 DataBrew API 或 Amazon SDK 进行配置。
-
列级配置:使用原定设置的剖析配置设置,您可以选择要包含在剖析作业中的列。使用添加配置覆盖可选择要对其限制收集的统计信息数的列,或者覆盖某些统计信息的原定设置配置。有关可以在列级别配置的统计信息的详细信息,请参阅列级别的可配置统计信息。您可以在 DataBrew 控制台上配置统计信息,也可以使用 DataBrew API 或 Amazon SDK 进行配置。
请确保您指定的任何配置覆盖都应用于您在剖析作业中包含的列。如果您为列配置的不同覆盖之间存在冲突,则最后一个冲突覆盖具有优先级。
-
(可选)您可以创建数据质量规则并应用与此数据集关联的其他规则集,也可以移除已应用的规则集。有关数据质量的更多信息,请参阅验证 Amazon Glue DataBrew 中的数据质量。
-
在高级作业设置窗格上,您可以针对作业运行方式选择更多选项:
-
最大单位数:DataBrew 使用并行运行的多个计算节点处理作业。默认节点数为 5。最大节点数为 149。
-
作业超时:如果作业运行时间超过您在此处设置的分钟数,则该作业将失败并显示超时错误。默认值为 2880 分钟(48 小时)。
-
重试次数:如果作业在运行时失败,DataBrew 可以再次尝试运行该作业。默认情况下,不会重试作业。
-
为作业启用 Amazon CloudWatch Logs:允许 DataBrew 向 CloudWatch Logs 发布诊断信息。这些日志可用于故障排除或获取有关如何处理作业的更多详细信息。
-
-
对于关联的计划,您可以应用 DataBrew 作业计划,以便您的作业在特定时间运行,或者定期运行。有关更多信息,请参阅 按计划自动运行作业。
-
根据需要进行设置后,选择创建作业。或者,如果您想立即运行作业,请选择创建并运行作业。