步骤 6:转换数据集 - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

步骤 6:转换数据集

到目前为止,您仅在数据集的样本上测试了您的食谱。现在是时候通过创建 DataBrew 配方作业来转换整个数据集了。

任务运行时, DataBrew 将您的配方应用于数据集中的所有数据,并将转换后的数据写入 Amazon S3 存储桶。转换后的数据与原始数据集是分开的。 DataBrew 不会更改源数据。

在继续操作之前,请确保您的账户中有一个可以写入的 Amazon S3 存储桶。在该存储桶中,创建一个用于捕获任务输出的文件夹 DataBrew。要执行这些步骤,请按以下步骤操作。

创建 S3 存储桶和文件夹以捕获任务输出
  1. 登录 Amazon Web Services Management Console 并打开 Amazon S3 控制台,网址为https://console.aws.amazon.com/databrew/

    如果您已经有一个 Amazon S3 存储桶可用,并且拥有该存储桶的写入权限,请跳过下一步。

  2. 如果您没有 Amazon S3 存储桶,请选择创建存储桶。在存储桶名称中,输入新存储桶的唯一名称。选择创建存储桶

  3. 从存储桶列表中选择要使用的存储桶。

  4. 请选择 Create folder(创建文件夹)。

  5. “文件夹名称” 中databrew-output,输入并选择 “创建文件夹”

在创建用于存放任务的 Amazon S3 存储桶和文件夹后,请使用以下过程运行您的任务。

创建和运行配方作业
  1. 在导航窗格上,选择作业

  2. 在 “配方作业” 选项卡上,选择 “创建作业”。

  3. Job 名称中输入chess-winner-summary

  4. 对于 Job 类型,选择创建配方作业

  5. Job 输入窗格上,执行以下操作:

    • 对于 “运行于”,选择 “数据集”。

    • 选择选择数据集以查看可用数据集列表,然后选择chess-games

    • 选择 “选择食谱” 以查看可用食谱列表,然后选择chess-project-recipe

  6. Job 输出设置窗格上,执行以下操作:

    • 文件类型-选择 CSV(逗号分隔值)。

    • S3 位置-选择此字段可查看可用的 Amazon S3 存储桶列表,然后选择要使用的存储桶。然后选择浏览。在文件夹列表中,选择databrew-output,然后选择选择

  7. 在 “访问权限” 窗格上,选择AwsGlueDataBrewDataAccessRole。此服务相关角色允许您代表您 DataBrew访问您的 Amazon S3 存储桶。

  8. 选择 “创建并运行作业”。 DataBrew 使用您的设置创建作业,然后运行它。

  9. Job 运行历史记录窗格上,等待任务状态从变RunningSucceeded

  10. 选择输出以访问 Amazon S3 控制台。选择您的 S3 存储桶,然后选择用于访问任务输出的 databrew-output文件夹。

  11. (可选)选择 “下载” 以下载文件并查看其内容。