创建一个长期 Amazon EMR 集群并使用 Amazon SDK 运行多个步骤 - Amazon Identity and Access Management
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

创建一个长期 Amazon EMR 集群并使用 Amazon SDK 运行多个步骤

以下代码示例展示如何创建一个长期 Amazon EMR 集群并运行多个步骤。

Python
适用于 Python (Boto3) 的 SDK

创建一个长期 Amazon EMR 集群,该集群使用 Apache Spark 从 Amazon Customer Reviews Dataset(Amazon 客户评论数据集)中查询历史 Amazon 评论数据。运行一项作业,该作业将获取特定类别中评价最高的产品的数据,这些产品的产品名称中包含关键字。作业结果将写入 Amazon Simple Storage Service (Amazon S3) 存储桶中。

  • 创建 Amazon S3 存储桶并上传作业脚本。

  • 创建 Amazon Identity and Access Management (IAM) 角色。

  • 创建 Amazon Elastic Compute Cloud (Amazon EC2) 安全组。

  • 创建一个长期集群并运行多个作业步骤。

此示例最好在 GitHub 上查看。有关完整的源代码以及如何设置和运行的说明,请参阅 GitHub 上的完整示例。

本示例中使用的服务

  • Amazon EC2

  • Amazon EMR

  • IAM

  • Amazon S3

有关 Amazon 软件开发工具包开发人员指南和代码示例的完整列表,请参阅 将 IAM 与 Amazon 开发工具包配合使用。本主题还包括有关入门的信息以及有关先前的软件开发工具包版本的详细信息。