概念 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

概念

Kubernetes 命名空间

Amazon EKS 使用 Kubernetes 命名空间在多位用户和多个应用程序之间划分集群资源。这些命名空间是多租户环境的基础。Kubernetes 命名空间可以使用 Amazon EC2 或 Amazon Fargate 作为计算提供程序。这种灵活度为您提供了不同的性能和成本选项,供您运行任务。

虚拟集群

虚拟集群是 Amazon EMR 注册的 Kubernetes 命名空间。Amazon EMR 使用虚拟集群运行任务和主机终端节点。同一个物理集群可以支持多个虚拟集群。但是,每个虚拟集群都映射到 EKS 集群上的命名空间。虚拟集群不会创建任何可增加您账单的活动资源,以及需要在服务之外进行生命周期管理的活动资源。

任务运行

任务运行是指您提交给 Amazon EMR on EKS 的工作单位,例如 Spark jar、PySpark 脚本或 SparkSQL 查询。一个任务可以有多个任务运行。提交任务运行时,需要包括以下信息:

  • 任务运行时所在的虚拟集群。

  • 用来标识任务的任务名称。

  • 执行角色 – 一种范围限定 IAM 角色,可运行任务并允许您指定任务可以访问哪些资源。

  • Amazon EMR 发行版标注,可指定要使用的开源应用程序版本。

  • 提交任务时要使用的构件,例如 spark-submit 参数。

默认情况下,日志将上载到 Spark 历史记录服务器,并可通过Amazon Web Services Management Console访问。您还可以将事件日志、执行日志和指标推送到 Amazon S3 和 Amazon CloudWatch。

Amazon EMR 容器

Amazon EMR 容器是在 Amazon EMR on EKS 的 API 名称。以下情况使用 emr-containers 前缀:

  • 用于 Amazon EMR on EKS 的 CLI 命令中的前缀。例如,aws emr-containers start-job-run

  • 用于 Amazon EMR on EKS 的 IAM 策略操作之前的前缀。例如,"Action": [ "emr-containers:StartJobRun"]。有关更多信息,请参阅 Amazon EMR on EKS 的策略操作

  • 在 Amazon EMR on EKS 服务终端节点中使用的前缀。例如,emr-containers.us-east-1.amazonaws.com。有关更多信息,请参阅 Amazon EMR on EKS 服务终端节点