步骤 6:转换数据集 - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

步骤 6:转换数据集

到目前为止,您仅在数据集的样本上测试了您的食谱。现在是时候通过创建 DataBrew 配方作业来转换整个数据集了。

任务运行时, DataBrew 将您的配方应用于数据集中的所有数据,并将转换后的数据写入 Amazon S3 存储桶。转换后的数据与原始数据集是分开的。 DataBrew 不会更改源数据。

在继续操作之前,请确保您的账户中存在可写入的 Amazon S3 存储桶。在该存储桶中,创建一个文件夹来捕获作业输出 DataBrew。要执行这些步骤,请使用以下过程。

创建 S3 存储桶和文件夹来捕获作业输出
  1. 登录到, Amazon Web Services Management Console 然后通过以下网址打开 Amazon S3 控制台:https://console.aws.amazon.com/databrew/

    如果您已有 Amazon S3 存储桶可用,并且您具有写入权限,请跳过下一个步骤。

  2. 如果您没有 Amazon S3 存储桶,请选择创建存储桶。在存储桶名称中,输入新存储桶的唯一名称。选择创建存储桶

  3. 从存储桶列表中,选择要使用的存储桶。

  4. 请选择 Create folder(创建文件夹)。

  5. “文件夹名称” 中databrew-output,输入并选择 “创建文件夹”

在创建用于包含任务的 S3 存储桶和文件夹后,请使用以下过程运行您的作业。

创建和运行配方作业
  1. 在导航窗格上,选择作业

  2. 在 “配方作业” 选项卡上,选择 “创建作业”。

  3. Job 名称中输入chess-winner-summary

  4. 对于 Job 类型,选择创建配方作业

  5. Job 输入窗格上,执行以下操作:

    • 对于 “运行于”,选择 “数据集”。

    • 选择选择数据集以查看可用数据集列表,然后选择chess-games

    • 选择 “选择食谱” 以查看可用食谱列表,然后选择chess-project-recipe

  6. Job 输出设置窗格上,执行以下操作:

    • 文件类型-选择 CSV(逗号分隔值)。

    • S3 位置-选择此字段可查看可用 Amazon S3 存储桶的列表,然后选择要使用的存储桶。然后选择浏览。在文件夹列表中,选择databrew-output,然后选择选择

  7. 在 “访问权限” 窗格上,选择AwsGlueDataBrewDataAccessRole。此服务相关角色可代表您 DataBrew访问 Amazon S3 存储桶。

  8. 选择创建并运行作业。 DataBrew 使用您的设置创建作业,然后运行该作业。

  9. Job 运行历史记录窗格上,等待任务状态从变RunningSucceeded

  10. 选择 “输出” 以访问 Amazon S3 控制台。选择您的 S3 存储桶,然后选择用于访问任务输出的 databrew-output文件夹。

  11. (可选)选择 “下载” 以下载文件并查看其内容。