Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 Amazon AWS 入门

步骤 4:通过运行 Hive 脚本来处理您的示例数据

在本教程的此步骤中,您将在 Amazon EMR 控制台中以步骤形式在您的集群中运行 Hive 脚本以处理示例数据。在 Amazon EMR 中,步骤 是包含一个或多个 Hadoop 作业的工作单元。您可以在创建集群或集群正在运行 (如果它是长时间运行的集群) 时提交步骤。

以步骤的形式提交 Hive 脚本

通过控制台使用 Add Step 选项可向集群提交 Hive 脚本。脚本使用的 Hive 脚本和示例数据已为您上传到 Amazon S3。

注意

在运行脚本之前,您必须拥有创建 Amazon S3 存储桶中所述的 Amazon S3 存储桶和 output 文件夹。

以步骤形式提交 Hive 脚本

  1. Open the Amazon EMR console at https://console.amazonaws.cn/elasticmapreduce/.

  2. Cluster List 中,选择您的集群的名称。

  3. 滚动到 Steps 部分并展开它,然后选择 Add step

  4. Add step 对话框中:

    • 对于 Step type,选择 Hive program

    • 对于 Name,接受默认名称 (Hive program) 或键入新名称。

    • 对于 Script S3 location,键入 s3://region.elasticmapreduce.samples/cloudfront/code/Hive_CloudFront.q

      region 替换为您的区域。例如,对于 US West (Oregon),键入 s3://us-west-2.elasticmapreduce.samples/cloudfront/code/Hive_CloudFront.q

    • 对于 Input S3 location,键入 s3://region.elasticmapreduce.samples

      region 替换为您的区域。例如,对于 US West (Oregon),键入 s3://us-west-2.elasticmapreduce.samples

    • 对于 Output S3 location,键入或浏览到您在 创建 Amazon S3 存储桶 中创建的 output 存储桶。

    • 对于 Arguments,包括以下参数可允许列名称与保留字相同:

      -hiveconf hive.support.sql11.reserved.keywords=false
    • 对于 Action on failure,接受默认选项 Continue

  5. 选择 Add。步骤会出现在控制台中,其状态为 Pending

  6. 步骤的状态会随着步骤的运行从 Pending 变为 Running,再变为 Completed。要更新状态,请选择 Actions 列上方的 Refresh。步骤会运行大约 1 分钟。

查看结果

步骤成功完成之后,Hive 脚本生成的查询输出会存储在您在提交步骤时指定的 Amazon S3 输出文件夹中。

查看 Hive 脚本的输出

  1. Open the Amazon S3 console at https://console.amazonaws.cn/s3/.

  2. 在 Amazon S3 控制台中,选择您用于存储输出数据的存储桶;例如,s3://myemrbucket/

  3. 选择 output 文件夹。

  4. 查询会将结果写入单独的文件夹中。选择 os_requests

  5. Hive 查询结果存储在一个文本文件中。要下载该文件,请右键单击它,选择 Download,打开 Download 的上下文菜单 (右键单击)。选择 Save Link As,然后将文件保存到合适的位置。

  6. 用文本编辑器 (如 WordPad (Windows)、TextEdit (Mac OS) 或 gEdit (Linux)) 打开该文件。在输出文件中,可以看到操作系统的访问请求数。

  7. 继续执行下一步。