使用规则集创建剖析作业 - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

使用规则集创建剖析作业

如前所述创建规则集后,会将您引导至数据质量规则页面,其中显示您账户中的所有规则集。

创建包含规则集的剖析作业
  1. 选择先前创建的规则集的名称以查看其详细信息。

  2. 选择使用规则集创建剖析任务

    作业名称会自动填充,但您可以根据需要进行更改。

  3. 对于作业运行样本,您可以选择运行整个数据集或有限数量的行。

    如果您选择运行的样本大小有限,请注意,对于某些规则,结果与完整数据集相比可能会有所不同。

  4. 作业输出设置中,为作业输出选择 S3 位置。在指定的 Amazon S3 存储桶中选择您有权访问的任何文件夹。如果您为此存储桶输入的文件夹名称不存在,则会创建此文件夹。

    成功完成剖析作业后,此文件夹将包含 JSON 格式的数据和数据质量规则验证报告的配置文件。

  5. 数据质量规则下,请注意您的规则集列在数据质量规则集名称下。

  6. 权限下,选择或创建角色,以授予 DataBrew 从输入 Amazon S3 位置读取和写入作业输出位置的访问权限。如果您还没有角色,请选择创建新的 IAM 角色

  7. 如有必要,请按创建和使用 Amazon Glue DataBrew 剖析作业中所述修改任何其他可选设置。

  8. 选择创建并运行作业