本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
了解 Amazon EMR on EKS 概念和术语
Amazon EMR on EKS 为 Amazon EMR 提供了部署选项,可让您在 Amazon Elastic Kubernetes Service(Amazon EKS)上运行开源大数据框架。本主题提供了一些常见术语的背景信息,包括命名空间、虚拟集群和作业运行,这些是提交进行处理的工作单元。
Kubernetes 命名空间
Amazon EKS 使用 Kubernetes 命名空间在多位用户和多个应用程序之间划分集群资源。这些命名空间是多租户环境的基础。Kubernetes 命名空间可以使用 Amazon EC2 或 Amazon Fargate 作为计算提供商。这种灵活度为您提供了不同的性能和成本选项,供您运行任务。
虚拟集群
虚拟集群是 Amazon EMR 注册的 Kubernetes 命名空间。Amazon EMR 使用虚拟集群运行任务和主机终端节点。同一个物理集群可以支持多个虚拟集群。但是,每个虚拟集群都映射到 EKS 集群上的命名空间。虚拟集群不会创建任何可增加您账单的活动资源,以及需要在服务之外进行生命周期管理的活动资源。
任务运行
作业运行是你在 EKS 上提交给 Amazon EMR 的一个工作单元,例如 Spark jar、 PySpark 脚本或 sparkSQL 查询。一个任务可以有多个任务运行。提交任务运行时,需要包括以下信息:
-
任务运行时所在的虚拟集群。
-
用来标识任务的任务名称。
-
执行角色 – 一种范围限定 IAM 角色,可运行任务并允许您指定任务可以访问哪些资源。
-
Amazon EMR 发行版标注,可指定要使用的开源应用程序版本。
-
提交任务时要使用的构件,例如 spark-submit 参数。
默认情况下,日志将上载到 Spark 历史记录服务器,并可通过 Amazon Web Services Management Console访问。您还可以将事件日志、执行日志和指标推送到 Amazon S3 和 Amazon CloudWatch。
Amazon EMR 容器
Amazon EMR 容器是在 Amazon EMR on EKS 的 API 名称。以下情况使用 emr-containers
前缀:
-
用于 Amazon EMR on EKS 的 CLI 命令中的前缀。例如,
aws emr-containers start-job-run
。 -
用于 Amazon EMR on EKS 的 IAM policy 操作之前的前缀。例如,
"Action": [ "emr-containers:StartJobRun"]
。有关更多信息,请参阅 Amazon EMR on EKS 的策略操作。 -
在 Amazon EMR on EKS 服务终端节点中使用的前缀。例如,
emr-containers.us-east-1.amazonaws.com
。有关更多信息,请参阅 Amazon EMR on EKS 服务终端节点。