步骤 6:转换数据集 - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

步骤 6:转换数据集

到目前为止,您仅在数据集的样本上测试了食谱。现在是时候通过创建 DataBrew 配方作业来转换整个数据集了。

任务运行时, DataBrew 将您的配方应用于数据集中的所有数据,并将转换后的数据写入 Amazon S3 存储桶。转换后的数据与原始数据集是分开的。 DataBrew 不会改变源数据。

在继续操作之前,请确保您的账户中有一个 Amazon S3 存储桶。在该存储段中,创建一个用于捕获任务输出的文件夹 DataBrew。要执行这些步骤,请使用以下过程。

创建 S3 存储桶和文件夹以捕获任务输出
  1. 登录到,Amazon Web Services Management Console然后通过以下网址打开 Amazon S3 控制台:https://console.aws.amazon.com/databrew/

    如果您已有一个 Amazon S3 存储桶,并具备写入权限,则跳到下一步。

  2. 如果您没有 Amazon S3 存储桶,请选择创建存储桶。对于存储桶名称,输入新存储桶的唯一名称。选择创建桶

  3. 从存储桶列表中,选择要使用的存储桶。

  4. 请选择 Create folder(创建文件夹)。

  5. 对于文件夹名称databrew-output,输入并选择创建文件夹

创建包含任务的 S3 存储段和文件夹后,使用以下过程运行您的作业。

创建和运行食谱作业
  1. 在导航窗格中,选择任务

  2. 在 “配方作业” 选项卡上,选择 “创建作业”。

  3. Job 名称中,输入chess-winner-summary

  4. 对于作业类型,选择创建配方Job

  5. Job 输入数据,执行以下操作:

    • 对于 “运行”,选择 “数据集”。

    • 选择 “选择数据集” 以查看可用数据集的列表,然后选择chess-games

    • 选择 “选择食谱” 以查看可用食谱列表,然后选择chess-project-recipe

  6. Job 输出设置,执行以下操作:

    • 文件类型 — 选择 CSV(逗号分隔值)。

    • S3 位置-选择此字段可查看可用 Amazon S3 存储桶的列表,然后选择要使用的存储桶。然后选择 “浏览”。在文件夹列表中,选择databrew-output,然后选择选择

  7. 访问权限窗格上,选择AwsGlueDataBrewDataAccessRole。此服务相关角色可代表您 DataBrew访问 Amazon S3 存储桶。

  8. 选择创建并运行作业。 DataBrew 使用您的设置创建任务,然后运行该作业。

  9. 在 “Job 运行历史记录” 窗格上,等待作业状态从更改RunningSucceeded

  10. 选择 Ou tion S3 控制台。选择您的 S3 存储桶,然后选择用于访问任务输出的 databrew-output文件夹。

  11. (可选)选择 “下载” 下载文件并查看其内容。