

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 创建和使用 Amazon Glue DataBrew 个人资料职位
<a name="jobs.profile"></a>

*剖析作业*对数据集运行一系列评估，并将结果输出到 Amazon S3。数据剖析收集的信息可帮助您了解自己的数据集，并决定在配方作业中可能需要运行哪种数据准备步骤。

运行配置文件作业的最简单方法是使用默认 DataBrew 设置。您可以在运行剖析作业之前对其进行配置，使其仅返回您想要的信息。

使用以下步骤创建 DataBrew 分析作业。

**创建剖析作业**

1. 登录 Amazon Web Services 管理控制台 并打开 DataBrew 控制台，网址为[https://console.aws.amazon.com/databrew/](https://console.amazonaws.cn/glue/)。

1. 从导航窗格中选择**作业**，选择**剖析作业**选项卡，然后选择**创建作业**。

1. 输入作业的名称，然后选择**创建一个剖析作业**。

1. 对于**作业输入**，提供要剖析的数据集的名称。

1. （可选）在**数据剖析配置**窗格上配置以下各项：
   + **数据集级别配置**：为数据集中所有列的剖析作业配置详细信息。

     或者，您可以打开检测数据集中的重复行并对其进行计数的功能。您也可以选择**启用相关性矩阵**，然后选择列，以查看多列中值的相关程度。有关可在数据集级别配置的统计信息的详细信息，请参阅[数据集级别的可配置统计信息](profile.configuration.md#statistics.table01)。您可以在 DataBrew 控制台上配置统计信息，也可以使用 DataBrew API 或 Amazon SDKs。
   + **列级配置**：使用**原定设置的剖析配置**设置，您可以选择要包含在剖析作业中的列。使用**添加配置覆盖**可选择要对其限制收集的统计信息数的列，或者覆盖某些统计信息的原定设置配置。有关可以在列级别配置的统计信息的详细信息，请参阅[列级别的可配置统计信息](profile.configuration.md#statistics.table02)。您可以在 DataBrew 控制台上配置统计信息，也可以使用 DataBrew API 或 Amazon SDKs。

     请确保您指定的任何配置覆盖都应用于您在剖析作业中包含的列。如果您为列配置的不同覆盖之间存在冲突，则最后一个冲突覆盖具有优先级。

1. （可选）您可以创建**数据质量规则**并应用与此数据集关联的其他规则集，也可以移除已应用的规则集。有关数据质量的更多信息，请参阅[验证中的数据质量 Amazon Glue DataBrew](profile.data-quality-rules.md)。

1. 在**高级作业设置**窗格上，您可以针对作业运行方式选择更多选项：
   + **最大单位数**-使用并行运行的多个计算节点 DataBrew 处理作业。默认节点数为 5。最大节点数为 149。
   + **作业超时**：如果作业运行时间超过您在此处设置的分钟数，则该作业将失败并显示超时错误。默认值为 2880 分钟（48 小时）。
   + **重试次数**-如果作业在运行时失败， DataBrew 可以尝试再次运行。默认情况下，不会重试作业。
   + **为作业启用 Amazon CloudWatch 日志**- DataBrew 允许将诊断信息发布到 CloudWatch 日志。这些日志可用于故障排除或获取有关如何处理作业的更多详细信息。

1. 对于 **A** ssociated S DataBrew chedule，您可以应用作业计划，以便您的作业在特定时间运行，或者定期运行。有关更多信息，请参阅 [按计划自动运行作业](jobs.recipe.md#jobs.scheduling)。

1. 根据需要进行设置后，选择**创建作业**。或者，如果您想立即运行作业，请选择**创建并运行作业**。