Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

配置输出位置

Amazon EMR 集群最常见的输出格式是压缩或未压缩的文本文件。通常,把这些文件写入 Amazon S3 存储桶。启动该集群前,必须先创建此存储桶。启动集群时,指定 S3 存储桶作为输出位置。

有关更多信息,请参阅以下主题:

创建和配置 Amazon S3 存储段

Amazon EMR (Amazon EMR) 使用 Amazon S3 存储输入数据、日志文件和输出数据。Amazon S3 将这些存储位置称为存储桶。存储桶具有某些限制以符合 Amazon S3 和 DNS 要求。有关更多信息,请参阅 Amazon Simple Storage Service Developers Guide 中的存储桶限制

本节说明如何使用 Amazon S3 AWS 管理控制台创建存储桶,并为 Amazon S3 存储桶设置权限。不过,也可以使用 Amazon S3 API 或第三方 Curl 命令行工具来创建 Amazon S3 存储桶并为其设置权限。更多有关 Curl 的信息,请参阅 Amazon S3 Curl 身份验证工具。有关使用 Amazon S3 API 创建和配置 Amazon S3 存储桶的信息,请参阅 Amazon Simple Storage Service API Reference

使用控制台创建 Amazon S3 存储桶

  1. 登录 AWS 管理控制台并通过以下网址打开 Amazon S3 控制台:https://console.amazonaws.cn/s3/

  2. 选择 Create Bucket

    此时将打开 Create a Bucket (创建存储桶) 对话框。

  3. 输入存储桶名称,如 myawsbucket

    此名称应该具有全局唯一性,且不得与另一个存储桶同名。

  4. 为您的存储桶选择 Region (区域)。为避免支付跨地区带宽费用,创建 Amazon S3 存储桶的地区应当与集群的地区相同。

    请参阅 选择 AWS 区域,了解关于选择区域的指南。

  5. 选择 Create

您使用 URI s3n://myawsbucket/ 创建了存储桶。

注意

如果在创建存储段向导中启用了日志记录,则只启用存储段访问日志,不会启用 集群日志。

注意

有关指定特定于区域的存储桶的更多信息,请参阅 Amazon Simple Storage Service 开发人员指南AWS 开发工具包的可用区域终端节点中的存储桶和区域

在创建存储桶后,您可以为其设置适当的权限。通常情况下,您可以对自己 (所有者) 授予读取和写入权限,并对已验证身份的用户授予读取访问权限。

使用控制台设置 Amazon S3 存储桶的权限

  1. 登录 AWS 管理控制台并通过以下网址打开 Amazon S3 控制台:https://console.amazonaws.cn/s3/

  2. Buckets 窗格中,打开 (右键单击) 刚刚创建的存储桶。

  3. 选择“Properties”。

  4. 在“Properties”窗格中,选择“Permissions”选项卡。

  5. 选择 Add more permissions

  6. 选择 Grantee (被授权者) 字段中的 Authenticated Users (已验证身份用户)

  7. Grantee (被授权者) 下拉列表右侧,选择 List (列表)

  8. 选择 Save

您已创建了一个存储桶,并为已验证身份的用户设置了权限。

在创建集群之前,必要的 Amazon S3 存储桶必须存在。必须将集群中引用的任何所需脚本或数据上传至 Amazon S3。下表介绍了示例数据、脚本和日志文件位置。

信息 Amazon S3 上的示例位置
脚本或程序 s3://myawsbucket/script/MapperScript.py
日志文件 s3://myawsbucket/logs
输入数据 s3://myawsbucket/input
输出数据 s3://myawsbucket/output