本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
创建和处理Amazon Glue DataBrew个人档案作业
配置任务对数据集进行一系列评估,并将结果输出到 Amazon S3。数据分析收集的信息可帮助您了解数据集并决定在配方作业中可能要运行哪种数据准备步骤。
运行配置文件作业的最简单方法是使用默认 DataBrew 设置。您可以在运行配置文件作业之前对其进行配置,使其仅返回所需的信息。
使用以下过程创建 DataBrew 配置文件作业。
创建配置文件作业
登录Amazon Web Services Management Console并通过 https://console.aws.amazon.com/databrew/
打开主 DataBrew 机。 从导航窗格中选择 “作业”,选择 “配置作业” 选项卡,然后选择 “创建作业”。
-
输入职位的名称,然后选择 “创建个人档案职位”。
对于 Job 输入,请提供要分析的数据集的名称。
(可选)在数据配置文件配置窗格上配置以下内容:
-
数据集级别配置-为数据集中的所有列配置个人资料作业的详细信息。
或者,您可以开启检测和计算数据集中重复行的功能。您也可以选择启用关联矩阵并选择列,以查看多列中的值之间的关联程度。有关可以在数据集级别配置的统计数据的详细信息,请参阅数据集级别的可配置统计数据。您可以在 DataBrew 控制台上配置统计信息,也可以使用 DataBrew API 或Amazon SDK 配置统计信息。
-
列级配置-使用默认配置文件配置设置,您可以选择要包含在配置文件作业中的列。使用 “添加配置覆盖” 来选择要限制收集的统计数据数量或覆盖某些统计信息的默认配置的列。有关可以在列级别配置的统计信息的详细信息,请参阅列级别的可配置统计数据。您可以在 DataBrew 控制台上配置统计信息,也可以使用 DataBrew API 或Amazon SDK 配置统计信息。
确保您指定的任何配置替代项都适用于您在配置文件作业中包含的列。如果您为某列配置的不同覆盖之间存在冲突,则最后一次冲突的覆盖优先级。
-
(可选)您可以创建数据质量规则并应用与该数据集关联的其他规则集,也可以删除已应用的规则集。有关数据质量验证的更多信息,请参阅在中验证数据质量Amazon Glue DataBrew。
-
在高级作业设置窗格上,您可以为作业的运行方式选择更多选项:
-
最大单位数 — 使用多个计算节点 DataBrew 处理作业,parallel 运行。默认节点数为 5。最大节点数为 149。
-
Job 超时- 如果作业花费的时间超过您在此处设置的运行分钟数,则会失败并出现超时错误。默认值为 2880 分钟,即 48 小时。
-
重试次数-如果作业在运行时失败, DataBrew 可以尝试再次运行该作业。默认情况下,不重试作业。
-
为任务启用 Amazon Lo CloudWatch g s — 允许 DataBrew 向 CloudWatch 日志发布诊断信息。这些日志可用于故障排除,或获取有关如何处理作业的更多详细信息。
-
-
对于 “关联时间表”,您可以应用 DataBrew 作业时间表,以便作业在特定时间运行,或定期运行。有关更多信息,请参阅 使用计划自动运行作业。
-
根据需要进行设置后,选择 Create job (创建任务)。或者,如果您想立即运行作业,请选择 “创建并运行作业”。