本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
步骤 5:创建数据配置文件
在处理项目时, DataBrew 会显示统计信息,例如样本中的行数和每列中唯一值的分布。这些统计数据以及更多统计数据代表了样本的概况。
要请求数据配置文件,请创建并运行分析作业。
对数据集进行性能分析
-
在导航窗格上,选择作业。
-
在 “分析作业” 选项卡上,选择 “创建作业”。
-
在 Job 名称中输入
chess-data-profile
。 -
对于 Job 类型,选择创建档案作业。
-
在 Job 输入窗格上,执行以下操作:
-
对于 “运行于”,选择 “数据集”。
-
选择选择数据集以查看可用数据集列表,然后选择
chess-games
。
-
-
在 Job 输出设置窗格上,执行以下操作:
-
对于 “文件类型”,选择 JSON(JavaScript 对象表示法)。
-
选择 S3 位置以查看可用 Amazon S3 存储桶的列表,然后选择要使用的存储桶。然后选择浏览。在文件夹列表中,选择
databrew-output
,然后选择选择。
-
-
在 “访问权限” 窗格上,选择
AwsGlueDataBrewDataAccessRole
。这是一个服务关联角色,允许您代表您 DataBrew 访问您的 Amazon S3 存储桶。 -
选择 “创建并运行作业”。 DataBrew 使用您的设置创建作业,然后运行该作业。
-
在 Job 运行历史记录窗格上,等待任务状态从变
Running
为Succeeded
。 -
要查看个人资料,请选择 VIEWPROFILE:
DATASETS窗口即会显示。花点时间浏览以下选项卡:
-
数据集预览
-
个人资料概述
-
列统计数据
-
数据沿袭统计
-